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要 不 这 样 吧 ， 如 果 编 程 语言 里 有 个 地 方 你 弄 不 明白， 而 正好 又 有 个 人 用 了 这 个 功能 ， 
那 就 开 枪 把 他 打 死 。 这 比 学 习 新 特性 要 容易 些 ， 然 后 过 不 了 多 久 ， 那 些 活 下 来 的 程 
序 员 就 会 开始 用 0.9.6 版 的 Python， 而 且 他 们 只 需要 使 用 这 个 版 本 中 易于 理解 的 那 一 
小 部 分 就 好 了 (ALAR), ' 





Tim Peters 


传奇 的 核心 开发 者 , “Python 之 禅 ”作者 


Python 官方 教程 (https://docs.python.org/3/tutorial/) 的 开头 是 这 样 写 的 :“Python 是 一 门 既 
容易 上 手 又 强大 的 编程 语言 。 这 人 句 话 本 身 并 无 大 人 碍 ， 但 需要 注意 的 是 ， 正 因为 它 既 好 学 
又 好 用 ， 所 以 很 多 Python 程序 员 只 用 到 了 其 强大 功能 的 一 小 部 分 。 


只 需要 几 个 小 时 ， 经 验 丰 富 的 程序 员 就 能 学 会 用 Python 写 出 实用 的 程序 。 然 而 随 着 这 最 初 
高 产 的 儿 个 小 时 变 成 数 周 其 至 数 月 ， 在 那些 先入 为 主 的 编程 语言 的 影响 下 ， 开 发 者 们 会 慢 
慢 地 写 出 带 着 “口音 ”的 Python 代码 。 即 便 Python 是 你 的 初恋 ， 也 难 逃 此 命运 。 因 为 在 
学 校 里 ， 抑 或 是 那些 入 门 书 上 ， 教 授 者 往往 会 有 意 避 免 只 跟 语言 本 身 相 关 的 特性 。 


另外 ， 向 那些 已 在 其 他 语言 领域 里 有 了 丰富 经 验 的 程序 员 介 绍 Python 的 时 候 ， 我 还 发 现 
了 一 个 问题 : 人 们 总 是 倾向 于 寻求 自己 熟悉 的 东西 。 受 到 其 他 语言 的 影响 ， 你 大 概 能 猜 
到 Python 会 支持 正则 表达 式 ， 然 后 就 会 去 查阅 文档 。 但 是 如 果 你 从 来 没 见 过 元 组 拆 包 
(tuple unpacking)， 也 没 昕 过 描述 符 (descriptor) 这 个 概念 ， 那 么 估计 你 也 不 会 特地 去 搜 
索 它 们 ， 然 后 就 永远 失去 了 使 用 这 些 Python 独 有 的 特性 的 机 会 。 这 也 是 本 书 试图 解决 的 
一 个 问题 。 

这 本 书 并 不 是 一 本 完备 的 Python 使 用 手册 ， 而 是 会 强调 Python 作为 编程 语言 独 有 的 特性 ， 
这 些 特性 或 者 是 只 有 Python 才 具 备 的， 或 者 是 在 其 他 大 众 语言 里 很 少见 的 。Python 语言 
核心 以 及 它 的 一 些 库 会 是 本 书 的 重点 。 尽 管 Python 的 包 索 引 现 在 已 经 有 6 万 多 个 库 了 ， 而 
且 其 中 很 多 都 异常 实用 ,但 是 我 几乎 不 会 提 到 Python 标准 库 以 外 的 包 。 







































































































































































注 1: 给 comp.lang.python Usenet 小 组 的 留言 ，2002 年 12 月 23 H, “Acrimony inc.l.p” (https://mail.python. 
org/pipermail/python-list/2002-December/147293.html ) 。 
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目标 读者 


本 书 的 目标 读者 是 那些 正在 使 用 Python， 又 想 熟 悉 Python 3 的 程序 员 。 如 果 你 懂 Python 2, 
但 是 想 迁 移 到 Python 3.4 或 者 更 新 的 版 本 ， 也 没 问 题 。 在 写 这 本 书 的 上 时候， 大 多 数 专业 
Python 程序 员 用 的 还 是 Python 2， 因 此 如 果 书 中 出 现 来 自 Python 3 的 特性 ， 读 者 可 能 会 感 
到 陌生 ， 我 也 会 特别 地 做 出 解释 。 


然而 ， 本 书 的 主要 目的 是 为 了 充分 地 展现 Python 3.4 的 魅力 ， 因 此 我 不 会 一 字 一 句 地 说 明 
如 何 让 本 书 的 代码 在 旧版 本 里 正常 运行 。 本 书 中 的 大 多 数 例子 稍 做 修改 (甚至 不 用 修改 ) 
就 可 以 在 Python 2.7 里 面 跑 起 来 ， 但 是 有 些 例子 ， 如 果 追 求 向 下 兼容 ， 就 会 需要 大 量 的 
重 写 。 


话 虽 如 此 ， 我 还 是 认为 ， 即 便 你 无 法 从 Python 2.7 里 脱身 ， 这 本 书 也 会 对 你 很 有 帮助 ， 因 
为 Pyhon 语言 的 核心 概念 是 不 会 变 的 。Python 3 也 不 是 一 门 全 新 的 语言 ， 大 多 数 的 改动 
花 一 下 午 大 概 就 能 适应 ， 官 方 文档 里 “Python 3.0 的 新 特性 ”一 节 (https://docs.python. 
org/3.0/whatsnew/3.0.html) 就 是 很 好 的 切入 点 。 固 然 ， 自 2009 年 发 布 以 来 ，Python 3.0 也 
在 变化 ， 但 是 这 些 变化 比 起 Python 3.0 和 Python 2.0 之 间 的 区 别 ， 并 没有 那么 重要 。 

如 果 你 尚 不 清楚 自己 对 Python 的 熟悉 程度 能 否 跟 得 上 本 书 的 内 容 ， 建 议 你 回头 看 看 Python 
的 官方 教程 。 注 意 ， 除 非 是 跟 Python 3 的 新 特性 有 关 ， 教 程 里 的 其 他 内 容 本 书 不 会 重复 。 


非 目 标 读者 


如 果 你 才刚 刚 开 始 学 Python， 本 书 的 内 容 可 能 会 显得 有 些 “ 超 纲 "。 比 难 懂 更 粳 的 是 ， 如 
果 在 学 习 Python 的 过 程 中 过 早 接触 本 书 的 内 容 ， 你 可 能 会 误 以 为 所 有 的 Python 代码 都 应 
该 利用 特殊 方法 和 元 编程 (metaprogramming) 技巧 。 我 们 知道 ， 不 成 熟 的 抽象 和 过 早 的 优 
化 一 样 ， 都 会 坏事 。 


本 书 的 结构 


如 果 你 是 本 书 的 目标 读者 ， 那 你 应 该 可 以 从 本 书 的 任意 一 章 开 始 阅读 ， 但 是 如 果 按 照 我 写 
作 时 的 构思 来 的 话 ， 本 书 一 共 分 为 六 个 独立 的 部 分 ， 每 个 部 分 内 的 章节 最 好 按照 顺序 来 读 。 


在 介绍 让 你 自己 实现 某 些 功能 的 方法 之 前 ， 我 通常 会 先 把 现成 可 用 的 工具 讲 清 楚 。 比 如 
说 第 二 部 分 的 第 2 章 涉及 现成 的 序列 类 型 (sequence type) ， 包 括 collections.deque 这 种 
不 太 受 关注 的 序列 类 型 。 一 直到 第 四 部 分 ， 我 们 才 会 看 看 如 何 从 抽象 基 类 (abstract base 
class, ABC) 中 获 利 ， 抽 象 基 类 则 被 封装 在 collections.abc 这 个 包 里 。 如 果 想 创建 自己 
的 ABC， 你 可 能 得 看 到 第 四 部 分 的 最 后 一 些 内 容 才 行 ， 因 为 我 一 直觉 得 ， 如 果 没 有 熟练 使 
用 ABC 的 经 验 ， 贸 然 去 实现 一 套 自 己 的 东西 是 不 合适 的 。 

这 样 做 有 几 个 好 处 。 第 一 ， 知 道 有 什么 现成 的 工具 可 用 ， 能 避免 重新 发 明 轮 子 。 毕 竟 我 们 
使 用 现 有 集合 类 型 (collection type) 的 概率 要 远大 于 自己 动手 写 一 套 新 的 。 第 二 ， 这 样 一 
来 ， 在 讨论 如 何 写 新 类 型 之 前 ， 我 们 能 够 有 更 多 的 机 会 来 了 解 这 些 现成 类 的 高 级 用 法 。 第 
三 ， 比 起 从 零 开 始 构建 一 个 ABC， 继 承 已 有 的 ABC 库 应 该 会 简单 一 些 。 最 后 ， 我 认为 在 




























































































































































































看 过 一 些 实际 的 案例 之 后 ， 理 解 抽象 会 更 轻松 。 


然 ， 这 样 也 会 带 来 一 些 不 便 之 处 ， 比 如 书 里 的 向 前 引用 就 会 分 散在 各 个 不 同 的 章节 里 
是 经 过 上 述 这 番 梳 理 ， 我 想 这 一 点 不 便 之 处 也 是 可 以 容忍 的 。 


B 
看 是 本 书 每 一 部 分 的 主题 。 























第 一 部 分 只 有 单独 的 一 章 ， 讲 解 的 是 Python 的 数据 模型 (data model), ， 以 及 如 何 为 了 
保证 行为 一 致 性 而 使 用 特殊 方法 (比如 _repr_)， 毕 况 Python 的 一 致 性 是 出 了 名 的 。 
其 实 整 本 书 几 乎 都 是 在 讲解 Python 的 数据 模型 ， 第 1 章 算是 一 个 概览 。 

第 二 部 分 
第 二 部 分 包含 了 各 种 集合 类 型 : 序列 (sequence), Wet (mapping) 和 集合 (set) ， 另 
外 还 提 及 了 字符 串 (str) 和 字 节 序列 (bytes) 的 区 分 。 说 起 来 ， 最 后 这 一 点 也 是 让 
亲 者 (Python 3 用 户 ) 快 ， 仇 者 (Python 2 用户) 痛 的 一 个 关键 ， 因 为 这 个 区 分 致使 
Python 2 代码 迁移 到 Python 3 的 难度 陡 增 。 第 二 部 分 的 目标 是 帮助 读者 回忆 起 Python 
内 置 的 类 库 ， 顺 带 解 释 这 些 类 库 的 一 些 不 太 直 观 的 地 方 。 具 体 的 例子 有 Python 3 如 何 
在 我 们 观察 不 到 的 地 方 对 dict 的 键 重新 排序 ， 或 者 是 排序 有 区 域 (locale) 依赖 的 字符 
串 时 的 注意 事项 。 为 了 达到 本 部 分 的 目标 ， 有 些 地 方 的 讲解 会 比较 大 而 全 ， 像 序列 类 型 
和 映射 类 型 的 变种 就 是 这 样 ， 有 了 时 则 会 写 得 很 深入 ， 比 方 说 我 会 对 dict 和 set 底层 的 
散 列表 进行 深层 次 的 讨论 。 

第 三 部 分 
如 何 把 函数 作为 一 等 对 象 (first-class object) 来 使 用 。 第 三 部 分 首先 会 解释 前 面 这 句 话 
是 什么 意思 ， 然 后 话题 延伸 到 这 个 概念 对 那些 被 广泛 使 用 的 设计 模型 的 影响 ， 最 后 读 
者 会 看 到 如 何 利 用 闭 包 (closure) 的 概念 来 实现 函数 装饰 器 (function decorator), 3X 
一 部 分 的 话题 还 包括 Python 的 这 些 基 本 概念 : 可 调用 (callable). ea Scie HE (function 
attribute) 、 内 省 (introspection)、 参 数 注解 (parameter annotation) 和 Python 3 里 新 出 
现 的 nonlocal 声明 。 





















































第 四 部 分 
到 了 这 里 ， 书 的 重点 转移 到 了 类 的 构建 上 面 。 虽 然 在 第 二 部 分 里 的 例子 里 就 有 类 声明 
(class declaration) 的 出 现 ， 但 是 第 四 部 分 会 呈现 更 多 的 类 。 和 任何 面向 对 象 语言 一 样 ， 
Python 还 有 些 自己 的 特性 ， 这 些 特性 可 能 并 不 会 出 现在 你 我 学 习 基 于 类 的 编程 的 语言 
中 。 这 一 部 分 的 章节 解释 了 引用 (reference) 的 原理 、“ 可 变性 ”的 概念 、 实 例 的 生命 
周期 、 如 何 构建 自 定 义 的 集合 类 型 和 ABC、 多重 继承 该 怎么 理 顺 、 什 么 时 候 应 该 使 用 
操作 符 重 载 及 其 方法 。 

第 五 部 分 
Python 中 有 些 结构 和 库 不 再 满足 于 诸如 条 件 判断 、 循 环 和 子 程序 (subroutine) 之 
类 的 顺序 控制 流程 ， 第 五 部 分 的 笔墨 会 集中 在 这 些 构造 和 库 上 。 我 们 会 从 生成 
器 (generator) 起 步 ， 然 后 话题 会 转移 到 上 下 文 管理 器 (context manager) 和 协 程 




































































(coroutine) ， 其 中 会 涵盖 新 增 的 功能 强大 但 又 不 容易 理解 的 yield from 语法 。 这 一 部 分 
以 并 发 性 和 面向 事件 的 IO 来 结尾 ， 其 中 跟 并 发 性 相关 的 是 collections. futures 这 个 
很 新 的 包 ， 它 借助 futures 包 把 线程 和 进程 的 概念 给 封装 了 起 来 ， 而 跟 面 向 事件 IO 相 
关 的 则 是 asyncto， 它 的 背后 是 基于 协 程 和 yield from 的 futures 包 。 
第 六 部 分 
第 六 部 分 的 开头 会 讲 到 如 何 动态 创建 带 属性 的 类 ， 用 以 处 理 诸如 JSON 这 类 半 结 构 化 
的 数据 。 然 后 会 从 大 家 已 经 熟悉 的 特性 (property) 机 制 入 手 ， 用 描述 符 从 底层 来 解释 
Python 对 象 属性 的 存 取 。 同 时 ， 函 数 、 方 法 和 描述 符 的 关系 也 会 被 梳理 一 人 遍 。 第 六 着 
分 会 从 头 至 尾 地 实现 一 个 字段 验证 器， 在 这 个 过 程 中 我 们 会 遇 到 一 些微 妙 的 问题 ， 然 后 
在 最 后 一 章 中 就 自然 引出 像 类 装饰 器 (class decorator) 和 元 类 (metaclass) 这 些 高 级 的 


概念 。 


a x * 

以 实践 为 基础 

一 般 情况 下 ， 我 们 会 用 Python 的 交互 式 控制 台 来 探索 各 种 库 和 语言 本 身 。 有 些 读者 可 能 
对 静态 的 需要 编译 的 语言 更 熟悉 ， 但 是 这 些 语言 可 能 不 会 提供 REPL (read-eval-print loop, 
读 取 、 求 值 、 输 出 的 循环 )。 在 这 里 我 想 强调 一 下 Python 交互 式 控制 台 ， 也 就 是 REPL, 
作为 一 个 学 习 工具 的 重要 性 。 
doctest (https://docs.python.org/3/library/doctest.html) 是 Python 的 一 个 标准 库 ， 做 测试 用 
的 。 这 个 库 通 过 模拟 控制 台 对 话 来 检验 表达 式 求 值 是 否 正确 ， 而 本 书 中 几乎 所 有 代码 的 测 
试 ， 包 括 那 些 在 控制 台 里 的 输出 ， 都 是 通过 这 个 库 来 进行 的 。doctest 看 起 来 就 像 是 Python 
交互 式 控制 台 的 剧本 ， 你 甚至 都 不 需要 了 解 它 背后 的 运行 机 制 就 可 以 直接 用 它 来 试验 书 里 
的 例子 。 



















































































我 有 时 为 了 事先 说 明 一 段 代码 的 目的 ， 会 在 展示 代码 之 前 先 摆 出 相应 的 doctest 文本 。 这 
是 因为 我 认为 ， 在 考虑 如 何 实现 一 个 功能 之 前 ， 先 严格 地 列 出 这 个 功能 能 做 什么 ， 这 能 帮 





助 我 们 在 编程 时 把 精力 花 在 该 花 的 地 方 。 测 试 驱 动 开 发 《TDD) 的 精髓 就 是 先 写 测试 ， 我 
后 来 发 现 这 种 精神 在 教学 中 也 是 大 有 益处 的 。 如 果 你 对 doctest 还 不 熟悉 ， 花 点 时 间 了 阅读 
它 的 文档 (https://docs.python.org/3/library/doctest.html)。 结 合 本 书 的 源码 (https://github. 
com/fluentpython/example-code)， 你 可 以 在 操作 系统 的 控制 台 里 键入 python3 -m doctest 
example_script.py 来 验证 书 中 几乎 所 有 代码 的 正确 性 。 


硬件 


书 中 有 一 些 简 单 的 时 间 和 基准 测试 ， 跑 这 些 测 试 的 时 候 我 用 的 是 写 书 时 的 两 台 笔 记 本 电 
脑 。 一 台 是 产 于 2011 年 的 MacBook Pro 13 英寸 笔记 本 ， 配 置 是 2.7 GHz 的 英特尔 Core i7 
处 理 器 、8GB 的 内 存 和 机 械 硬 盘 ， 另 一 台 是 产 于 2014 年 的 MacBook Air 13 英寸 笔记 本 ， 
配置 是 1.4 GHz 的 英特尔 Core i5 处 理 器 、4GB 内 存 和 一 个 固态 硬盘 。MacBook Air 的 处 理 













































































a 
Tip 


器 虽然 慢 一 些 ， 内 存 也 没有 另 一 台 多 ， 但 是 它 的 内 存 快 一 些 (1600 MHz, MacBook Pro 13 
英寸 则 是 1333 MHz) ， 另 外 它 的 硬盘 也 更 快 ， 因 此 在 日 常 使 用 中 我 并 疫 有 感觉 到 两 台 笔 记 
本 有 速度 上 的 差异 。 


杂谈 : 个 人 的 一 点 看 法 
从 1998 年 起 ， 我 一 直 在 使 用 Python， 也 做 Python 教学 ， 另 外 还 一 直 在 为 它 辩 护 。 我 一 直 
都 很 享受 这 个 过 程 ， 尤 其 是 喜欢 研究 Python 同 其 他 语言 在 设计 和 理论 上 的 不 同 。 因 此 在 有 
些 章节 的 最 后 ， 我 会 加 上 一 点 自己 对 Python 以 及 其 他 语言 的 看 法 ， 我 把 这 部 分 叫 作 “ 杂 
谈 "。 如 果 你 对 这 些 东 西 不 感 兴趣 ， 跳 过 即 可 ， 因 为 这 些 并 不 是 必 读 的 。 


Python Rik 


我 希望 这 本 书 不 仅仅 是 关于 Python 的 ， 也 是 关于 Python 的 文化 的 。 在 过 去 20 多 年 的 交流 
中 ，Python 社区 形成 了 它 独 有 的 行 话 和 缩写 。 本 书 的 最 后 有 一 部 分 叫 “Python RER”, 
里 面 列 出 了 在 Python 爱好 者 中 具有 特别 意义 的 词句 。 


Python 版 本 表 


本 书 所 有 的 代码 都 在 Python 3.4 里 测试 过 ， 而 且 是 应 用 最 广 的 用 C 实现 的 CPython 3.4。 只 
有 一 个 例外 ,在 13.4 节 中 的 “Python 3.5 新 引入 的 中 缀 运算 符 @” 附 注 栏 里 ,我 提 到 了 新 
的 @ 运算 符 ， 它 只 在 Python 3.5 里 被 支持 。 
凡是 支持 Python 3x 的 解释 器 一 一 包括 PyPy3 2.4.0 一 一 都 可 以 运行 书 里 的 代码 (PyPy3 
2.4.0 其 实 已 经 支持 Python 3.2.5)。 有 一 点 需要 注意 的 是 ，yield from 和 asyncio 只 在 
Python 3.3 或 者 更 新 的 版 本 里 才 有 。 

几乎 所 有 的 代码 稍 做 修改 后 都 能 在 Python 2.7 里 运行 ， 除 了 第 4 章 中 那些 跟 Unicode 相关 
的 例子 ， 这 是 从 Python 3 出 现 以 来 就 有 的 问题 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 楷体 
表示 新 术语 。 
。 等 宽 字 体 (constant width) 


表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变量 、 语 句 
和 关键 字 等 。 


。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 














































































































。 等 宽 斜 体 (Constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 











该 图 标 表 示 提 示 或 建议 。 








该 图 标 表示 一 般 注 记 。 





该 图 标 表示 警告 或 警示 。 








使 用 代码 示例 


书 中 的 所 有 完整 代码 和 大 多 数 程序 片段 都 可 以 从 本 书 的 GitHub 代码 库 中 获取 (https:// 
github.com/fluentpython/example-code ) 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Fluent Python by Luciano Ramalho (O’Reilly). Copyright 
2015 Luciano Ramalho, 978-1-491-94600-8.” 











Safari Books Online 


p: Safari Books Online (http://www.safaribooksonline.com) 是 应 运 而 

4 Satay | 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 技术 
和 商务 作家 的 专业 作品 。 

技术 和 专家、 软件 开发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问 
题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 
对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, Prentice 
Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit 














Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press, Apress. Manning, New Riders, McGraw-Hill, 
Jones & Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 








联系 我 们 








请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 (100035) 
奥 菜 利 技术 咨询 (北京 ) 有 限 公司 


O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那里 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : http://shop.oreilly.com/product/0636920032519.do 




















对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 伯 





F 到 ;bookquestions @ oreilly.com 


要 了 解 更 多 OReilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : http://www. 





oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 





我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 
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Josef Hartwig 设计 的 包 豪 斯 国际 象棋 








套装 体现 了 最 佳 的 设计 到 











一 位 建筑 师父 亲 ， 以 及 一 位 字体 设计 师弟 弟 ，Guido van Rossum 设计 
语言 。 我 之 所 以 热衷 于 教授 Python， 也 正 是 因 








Bax: 美观 、 











上 了 一 门 经 典 的 编程 
为 它 的 美观 、 简 洁 和 清晰 。 


简洁 而 清晰 。 有 




















Alex Martelli 和 Anna Ravenscroft 是 最 先 看 到 本 书 大 纲 的 人 ， 也 是 他 们 鼓励 我 把 大 纲 交 
给 O'Reilly 出 版 社 的。 他 们 的 书 不 但 向 我 展示 了 地 道 的 Python 代码 ， 还 让 我 见识 了 什么 
才 称 得 上 是 清晰 、 准 确 和 有 深度 的 技术 写作 。Alex 在 Stack Overflow 上 的 5000 多 个 回答 
(http://stackoverflow.com/users/95810/alex-martelli) 也 体现 了 他 对 Python 语言 基础 和 正确 用 





法 的 深入 理解 。 





Martelli 和 Ravenscroft 同时 也 是 本 书 的 技术 审 稿 人 。 除 了 他 们 之 外 ， 技 术 审 稿 人 还 有 两 位 : 
Lennart Regebro 和 Leonardo Rochael。 技 术 审 稿 团 队 里 的 每 个 人 都 至 少 有 15 年 的 Python 
经 验 ， 为 许 许多 多 具有 广泛 影响 力 的 Python 项 目 贡 献 过 代码 ， 并 且 跟 社区 里 的 其 他 开发 
者 走 得 很 近 。 审 稿 人 一 共 提 出 了 数 百 个 修订 、 建 议 、 问 题 和 观点 ， 为 这 本 书 做 出 了 巨大 贡 
献 。 另 外 ，Victor Stinner 帮 我 审阅 了 第 18 章 ， 他 同时 也 是 该 章 里 提 到 的 asyncio 的 维护 者 
之 一 。 在 过 去 的 几 个 月 里 能 够 跟 他 们 合作 ， 我 感到 很 未 幸 。 


本 书 编辑 Meghan Blanchette 是 一 位 出 色 的 导师 。 她 不 但 帮助 我 梳理 整 本 
容 的 连贯 性 ， 还 为 我 指出 哪里 写 得 不 够 有 趣 ， 并 且 督 促 我 及 时 交 稿 。Brian MacDonald 在 





























区 的 结构 、 增 强 内 














Meghan 休假 的 时 候 帮 忙 编辑 了 第 三 部 分 。 跟 他 们 以 及 OReilly 的 所 有 人 打交道 的 过 程 都 
十 分 愉快 。 另 外 Atlas 系统 的 开发 和 支持 团队 也 很 棒 (Atlas 是 O'Reilly 的 图 书 出 版 平台 ， 
我 就 是 在 这 个 平台 上 写作 的 )。 

Mario Domenech Goulart 在 看 过 本 书 第 一 次 提前 发 行 的 版 本 后 ， 提 供 了 海量 的 详细 建议 。 
另外 我 还 从 Dave Pawson、Elias Dorneles、Leonardo Alexandre Ferreira Leite、Bruce Eckel、 
J. S. Bueno, Rafael Gonçalves, Alex Chiaranda, Guto Maia, Lucas Vido 和 Lucas Brunialti 
那里 获得 了 宝贵 的 反馈 。 


几 年 来 有 很 多 人 都 在 劝 我 写 书 ，Rubens Prates, Aurelio Jargas, Rudá Moura 和 Rubens 
Altimari 这 几 位 算是 最 有 说 服 力 的 了 。Mauricio Bussab 算得 上 带 我 入 门 的 人 ， 并 且 他 让 我 
有 了 第 一 次 写 书 的 尝试 。Renzo Nuccitelli 毫 不 在 乎 这 本 书 的 写作 可 能 会 影响 到 我 们 合作 的 
python.pro.br 项 目的 进度 ， 他 从 一 开始 就 大 力 支持 。 

Python 巴西 社区 是 一 个 集思广益 、 乐 于 分 享 且 充满 乐趣 的 地 方 。Python 巴西 小 组 (https:// 
groups.google.com/group/python-brasil) 中 有 数 千 个 人 ， 每 次 的 全 国 范围 的 会 议 都 会 把 成 百 
上 千 人 聚集 在 一 起 。 在 我 的 Python 爱好 者 成 长 之 路 上 ， 对 我 影响 最 大 的 人 有 : Leonardo 


Rochael, Adriano Petrich, Daniel Vainsencher, Rodrigo RBP Pimentel, Bruno Gola, 
























































Leonardo Santagada, Jean Ferri, Rodrigo Senra, J. S. Bueno, David Kwast, Luiz Irber, 
Osvaldo Santana, Fernando Masanori, Henrique Bastos, Gustavo Niemayer, Pedro Werneck, 
Gustavo Barbieri, Lalo Martins, Danilo Bellini 和 Pedro Kroger, 


Dorneles Tremea 是 个 非常 棒 的 朋友 〈 他 很 愿意 花 时 间 分 享 他 的 知识 ) ， 他 不 但 是 很 厉害 的 
开发 者 ， 还 是 巴西 Python 协会 中 最 鼓舞 人 心 的 领导 人 。 可 惜 他 过 早 离开 了 我 们 。 

我 的 学 生 们 同时 也 是 我 的 老师 ， 他 们 的 问题 、 见 解 、 反 馈 和 那些 富有 创造 性 的 回答 教会 了 
我 很 多 。Erico Andrei 和 Simples Consultoria 让 我 头 一 次 有 机 会 集中 精力 做 一 名 Python 教师 。 


Martijn Faassen 是 我 的 Grok 导师 ， 他 同 我 分 享 了 很 多 关于 Python 和 尼 安 德 特 人 的 想 
法 。Martijn 所 做 的 事情 ， 还 有 来 自 Zope, Plone 和 Pyramid planets 的 Paul Everitt, Chris 
McDonough, Tres Seaver, Jim Fulton, Shane Hathaway, Lennart Regebro、Alan Runyan, 
Alexander Limi, Martijn Pieters 和 Godefroid Chapelle 等 人 所 做 的 事情 ， 在 我 事业 发 展 的 过 
程 中 起 到 了 决定 性 的 作用 。 多 亏 了 Zope 和 第 一 波 互 联网 浪 蛮 ， 让 我 在 1998 年 就 开始 从 事 
Python 相关 的 工作 并 以 此 为 生 。José Octavio Castro Neves 是 我 的 搭档 ， 我 们 在 巴西 开 了 第 
一 家 以 Python 业务 为 主 的 软件 公司 。 

在 更 广阔 的 Python 社区 当中 高 手 如 云 ， 我 实在 是 没 办 法 一 一 列 出 他 们 的 名 字 。 但 是 除了 之 
前 提 到 的 之 外 ， 我 还 要 感谢 Steve Holden, Raymond Hettinger, A.M. Kuchling, David Beazley, 
Fredrik Lundh, Doug Hellmann, Nick Coghlan, Mark Pilgrim, Martijn Pieters, Bruce Eckel, 
Michele Simionato, Wesley Chun, Brandon Craig Rhodes, Philip Guo, Daniel Greenfeld. Audrey 
Roy 和 Brett Slatkin， 感 谢 他 们 让 我 见识 到 更 新 更 好 的 教授 Python 的 方法 。 

我 基本 上 是 在 家 里 的 办 公 室 和 两 个 公共 空间 完成 这 本 书 的 写作 的 。 两 个 公共 空间 分 别 是 
CoffeeLab 和 Garoa Hacker Clube。CoffeeLab (http://coffeelab.com.br) 是 位 于 巴西 圣保罗 
Vila Madalena 区 的 一 个 咖啡 极 客 大 本 营 。Garoa Hacker Clube (https://garoa.net.br) 则 是 一 
个 开放 的 墨客 空间 ， 任 何人 都 可 以 在 这 里 实验 他 们 的 新 点 子 。 
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了 有 灵感、 基础 设施 和 放松 的 环境 ， 我 想 Aleph 会 喜欢 这 本 


BAY 








我 的 母 Maria Lucia 和 父亲 Jairo 一 直 都 以 各 种 方式 支持 我 。 我 真希 望 我 的 父亲 还 健在 并 
看 到 本 书 的 出 版 ， 同 时 也 为 能 与 我 的 母亲 分 享 这 本 书 而 感到 开心 。 

















在 写 这 本 书 的 15 个 月 里 ， 身 为 丈夫 的 我 几乎 一 直 在 工作 ， 我 的 妻子 Marta Mello 陪 我 一 起 


熬 过 了 这 段 日 子 。 在 这 如 同 跑马 拉 松 的 写作 过 程 中 ， 她 不 但 一 直 支 持 我 ， 而 且 在 我 想 要 放 
弃 的 时 候 陪 我 一 起 渡 过 难关 。 


谢谢 你 们 每 一 个 人 ， 谢 谢 你 们 做 的 每 一 件 事 。 


电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 
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Guido 对 语言 设计 美学 的 深入 理解 让 人 震惊 。 我 认识 不 少 很 不 错 的 编程 语言 设计 者 ， 
他 们 设计 出 来 的 东西 确实 很 精彩 ， 但 是 从 来 都 不 会 有 用 户 。Guido 知道 如 何在 理论 
上 做 出 一 定 妥协 ， 设 计 出 来 的 语言 让 使 用 者 觉得 如 沐 春 风 ， 这 真是 不 可 多 得 。: 





Jim Hugunin 
Jython 的 作者 ，AspectJ 的 作者 之 一 ，.NET DLR 架构 师 


Python 最 好 的 品质 之 一 是 一 致 性 。 当 你 使 用 Python 工作 一 会 儿 后 ， 就 会 开始 理解 Python 
语言 ， 并 能 正确 猜测 出 对 你 来 说 全 新 的 语言 特征 。 


然而 ， 如 果 你 带 着 来 自 其 他 面向 对 象 语言 的 经 验 进入 Python 的 世界 ， 会 对 len(collection) 
而 不 是 collection.len() 写法 觉得 不 适 。 当 你 进一步 理解 这 种 不 适 感 背 后 的 原因 之 后 ， 
会 发 现 这 个 原因 ， 和 它 所 代表 的 庞大 的 设计 思想 ， 是 形成 我 们 通常 说 的 “Python 风格 ” 
(Pythonic) 的 关键 。 这 种 设计 思想 完全 体现 在 Python 的 数据 模型 上 ， 而 数据 模型 所 描述 的 
API， 为 使 用 最 地 道 的 语言 特性 来 构建 你 自己 的 对 象 提供 了 工具 。 

数据 模型 其 实 是 对 Python 框架 的 描述 ， 它 规范 了 这 门 语言 自身 构建 模块 的 接口 ， 这 些 模块 
包括 但 不 限于 序列 、 迭 代 器 、 函 数 、 类 和 上 下 文 管理 器 。 

不 管 在 哪 种 框架 下 写 程序 ， 都 会 花费 大 量 时 间 去 实现 那些 会 被 框架 本 身 调用 的 方法 ， 
Python 也 不 例外 。Python 解释 器 碰 到 特殊 的 句法 时 ， 会 使 用 特殊 方法 去 激活 一 些 基本 的 对 
象 操作 ， 这 些 特殊 方法 的 名 字 以 两 个 下 划 线 开头 ， 以 两 个 下 划 线 结尾 (例如 _getitem_)。 
比如 obj[key] 的 背后 就 是 __getitem_ 方法 ,为 了 能 求 得 my_collection[key] HJE, MEFE 










































































注 1: 摘自 “Story of Jython” (http://hugunin.net/story_of_jython.html)， 这 是 Jython Essentials (Samuele Pedroni 
和 Noel Rappin 3#, O'Reilly 出 版 社 ，2002 Æ) 一 书 的 序 。 








器 实际 上 会 调用 my_collection.__getitem__(key), 

这 些 特殊 方法 名 能 让 你 自己 的 对 象 实现 和 支持 以 下 的 语言 构架 ， 并 与 之 交互 : 
EE 

集合 类 

。 属性 访问 

运算 符 重 载 

。 函数 和 方法 的 调用 

。 对 象 的 创建 和 销毁 

。 字符 串 表 示 形 式 和 格式 化 

。 管理 上 下 文 (Bl with 块 ) 











magic 和 dunder 


魔术 方法 (magic method) 是 特殊 方法 的 昵称 。 有 些 Python 开发 者 在 提 到 
_getitem “这 个 特殊 方法 的 时 候 ， 会 用 诸如 “下 划 线 -下 划 线 - getitem” * 
这 种 说 法 ， 但 是 显然 这 种 说 法 会 引起 歧义 ， 因 为 像 _x 这 种 命名 在 Python 里 
还 有 其 他 含义 ， 但 是 如 果 完 整地 说 出 “下 划 线 一 下 划 线 一 getitem 一 下 划 线 一 
TFR”, XZR. FERRE Steve Holden, 一 位 技术 书 作 者 和 老师 ， 
学 会 了 “ 双 下 一 getitem” (dunder-getitem) 这 种 说 法 。 于 是 平 ， 特 殊 方法 也 
叫 双 下 方法 (dunder method), * 























1.1 一 摆 Python 风 格 的 纸牌 


接 下 来 我 会 用 一 个 非常 简单 的 例子 来 展示 如 何 实现 _getitem_ Flen 这 两 个 特殊 方 
法 ， 通 过 这 个 例子 我 们 也 能 见识 到 特殊 方法 的 强大 。 
示例 1-1 里 的 代码 建立 了 一 个 纸牌 类 。 


示例 1-1 一 操 有 序 的 纸牌 


import collections 
Card = collections.namedtuple('Card', ['rank', 'suit']) 
class FrenchDeck: 


ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 











YE 2: Bll under-under-getitem 的 直译 。 一 一 译 者 注 
注 3: 详 见 9.7 而 。 
注 4: 我 是 从 Steve Holden 那里 第 一 次 听 说 dunder 这 个 说 法 的 。 根 据 维基 百科 的 解释 ，Mark Jackson 和 Time 





Hochberg 是 最 早 在 书写 中 开始 使 用 这 个 词 的 人 (https://en. wikipedia.org/wiki/Reserved_word#Reserved_ 
ranges)。 那 是 2002 年 9 月 26 日 ， 他 们 两 人 在 邮件 列表 里 回复 “_( 双 下 划 线 ) 怎么 念 ? ”这 个 问题 时 提 
到 了 dunder， 最 先 回复 的 是 Jackson (https://mail.python.org/pipermail/python-list/2002-September/112991.html) , 
11 分 钟 后 Hochberg 也 回复 了 (https://mail.python.org/pipermail/python-list/2002-September/114716.html) 。 
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def _ init (self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def __len__(self): 
return Len(self._cards) 


def _ getitem (self, position): 
return self._cards[position] 


首先 ， 我们 用 collections.namedtuple 构建 了 一 个 简单 的 类 来 表示 一 张 纸牌 。 自 Python 2.6 
开始 ，namedtuple 就 加 入 到 Python 里 ， 用 以 构建 只 有 少数 属性 但 是 没有 方法 的 对 象 ， 比 如 
数据 库 条 目 。 如 下 面 这 个 控制 台 会 话 所 示 ， 利 用 namedtuple， 我 们 可 以 很 轻松 地 得 到 一 个 
纸牌 对 象 : 

>>> beer_card = Card('7', '‘diamonds') 


>>> beer_card 
Card(rank='7', suit='diamonds' ) 


当然 ， 我 们 这 个 例子 主要 还 是 关注 FrenchDeck 这 个 类 ， 它 既 短 小 又 精 悍 。 首 先 ， 它 跟 任 何 
标准 Python 集合 类 型 一 样 ， 可 以 用 Len() 函数 来 查看 一 倒 牌 有 多 少 张 : 
>>> deck = FrenchDeck() 


>>> Len(deck) 
52 


MA PPOR EAI — SKA, Lean se ok a —oK, IRA DN: deck[9] 或 
deck[-1]。 这 都 是 由 __getitem__ 方法 提供 的 : 

>>> deck[0] 

Card(rank='2', suit='spades') 

>>> deck[-1] 

Card(rank='A', suit='hearts') 


我 们 需要 单独 写 一 个 方法 用 来 随机 抽取 一 张 纸牌 吗 ? 没 必 要 ，Python 已 经 内 置 了 从 一 个 序 
列 中 随机 选 出 一 个 元 素 的 函数 random.choice， 我 们 直接 把 它 用 在 这 一 操 纸 牌 实例 上 就 好 : 

>>> from random import choice 

>>> choice(deck) 

Card(rank='3', suit='hearts') 

>>> choice(deck) 

Card(rank='K', suit='spades') 

>>> choice(deck) 

Card(rank='2', suit='clubs') 


现在 已 经 可 以 体会 到 通过 实现 特殊 方法 来 利用 Python 数据 模型 的 两 个 好 处 。 
。 作为 你 的 类 的 用 户 ， 他 们 不 必 去 记 住 标准 操作 的 各 式 名 称 (“怎么 得 到 元 素 的 总 数 ? 


是 .size() 还 是 .length() 还 是 别 的 什么 ?”)。 


。 可 以 更 加 方便 地 利用 Python 的 标准 库 , 比 如 random.choice 函数 ,从 而 不 用 重新 发 明 轮 子 。 
而 且 好 戏 还 在 后 面 。 
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因为 ”getitem “方法 把 [] 操作 交 给 了 self._cards 列表 ， 所 以 我 们 的 deck 类 自动 支持 切 
F (slicing) 操作 。 下 面 列 出 了 查看 一 摆 牌 最 上 面 3 张 和 只 看 牌 面 是 A 的 牌 的 操作 。 其 中 
第 二 种 操作 的 具体 方法 是 ， 先 抽出 索引 是 12 的 那 张 牌 ， 然 后 每 隔 13 张 牌 拿 1 张 : 


>>> deck[:3] 

[Card(rank='2', suit='spades'), Card(rank='3', suit='spades'), 
Card(rank='4', suit='spades')] 

>>> deck[12::13] 

[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 
Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 


另外 ， 仅 仅 实现 了 _getitem_ Hik, A —TRMP AE ATA CH T : 


>>> for card in deck: # doctest: +ELLIPSIS 
print(card) 

Card(rank='2', suit='spades') 

Card(rank='3', suit='spades') 

Card(rank='4', suit='spades') 












































反 向 迭代 也 没关系 : 


>>> for card in reversed(deck): # doctest: +ELLIPSIS 
print(card) 

Card(rank='A', suit='hearts') 

Card(rank='K', suit='hearts') 

Card(rank='Q', suit='hearts') 


doctest 中 的 省 略 

为 了 尽 可 能 保证 书 中 的 Python 控制 台 会 话 内 容 的 正确 性 ， 这 些 内 容 都 是 直 
接 从 doctest 里 摘录 的 。 在 测试 中 ， 如 果 可 能 的 输出 过 长 的 话 ， 那 么 过 长 的 
内 容 就 会 被 如 上 面 例子 的 最 后 一 行 的 省 略 号 〈.…:) 所 替代 。 此 时 就 需要 
#doctest: +ELLIPSIS 这 个 指令 来 保证 doctest 能 够 通过 。 要 是 你 自己 照 着 书 
中 例子 在 控制 台中 项 代码， 可 以 略 过 这 一 指令 。 



































迭代 通常 是 隐 式 的 ， 壁 如 说 一 个 集合 类 型 没有 实现 __contains_ 方法 ， 那 么 in 运算 符 就 
会 按 顺 序 做 一 次 迭代 搜索 。 于 是 ，in 运算 符 可 以 用 在 我 们 的 FrenchDeck 类 上 ， 因 为 它 是 
可 迭代 的 : 

>>> Card('Q', 'hearts') in deck 

True 


>>> Card('7', 'beasts') in deck 
False 


那么 排序 呢 ? 我 们 按照 常规 ， 用 点 数 来 判定 扑克 牌 的 大 小 ，2 最 小 、A 最 大 ， 同 时 还 要 加 
上 对 花色 的 判定 ， 墨 桃 最 大 、 红 桃 次 之 、 方 块 再 次 、 梅 花 最 小 。 下 面 就 是 按照 这 个 规则 来 
给 扑克 牌 排序 的 函数 ， 梅 花 2 的 大 小 是 6， 黑 桃 A 是 51: 


suit_values = dict(spades=3, hearts=2, diamonds=1, clubs=0) 
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def spades_high(card): 
rank_value = FrenchDeck.ranks.index(card.rank) 
return rank_value * len(suit values) + suit_values[card.suit] 


有 了 spades_high 函数 ， 就 能 对 这 操 牌 进行 升序 排序 了 : 


>>> for card in sorted(deck, key=spades_high): # doctest: +ELLIPSIS 
A print(card) 

tardlranke '2', suit='clubs') 

Card(rank='2', suit='diamonds') 

Card(rank='2', suit='hearts') 
. (46 cards ommitted) 

Card(rank='A', suit='diamonds') 

Card(rank='A', suit='hearts') 

Card(rank='A', suit='spades') 


虽然 FrenchDeck 隐 式 地 继承 了 object [a a 。 我 们 通过 数据 模型 和 
一 些 合成 来 实现 这 些 功 能 。 通 过 实现 len 和 __getitem _ 这 两 个 特殊 方法 ，FrenchDeck 
就 跟 一 个 Python 自 ee. 可 以 体现 出 Python 的 核心 语言 特性 (oi ani 
代 和 切片 )。 同 时 这 个 类 还 可 以 用 于 标准 库 中 诸如 random.choice, reversed 和 sorted 这 
些 函 数 。 另 外 ， 对 合成 的 运用 使 得 _Len Fl _ getitem “的 具体 实现 可 以 代理 给 self. 
_cards 这 个 Python 列表 ( 即 list HK). 


如 何 洗 牌 

按照 目前 的 设计 ，FrenchDeck 是 不 能 洗 牌 的 ， 因 为 这 摆 牌 是 不 可 变 的 (immu- 
table) : 卡 牌 和 它们 的 位 置 都 是 固定 的 ， 除 非 我 们 破坏 这 个 类 的 封装 性 ， 
直接 对 _cards 进行 操作 。 第 11 章 会 讲 到 ， 其 实 只 需要 一 行 代 码 来 实现 
__setitemn “方法 ， 洗 牌 功能 就 不 是 问题 了 。 





























1.2 ”如 何 使 用 特殊 方法 


首先 明确 一 点 ， 特 殊 方法 的 存在 是 为 了 被 Python 解释 器 调用 的 ， 你 自己 并 不 需要 调用 它 
们 。 也 就 是 说 没有 my_object.__len_() 这 种 写法 ， 而 应 该 使 用 Len(my_object)。 在 执行 
len(my_object) ie 如 果 my_object 是 一 个 自 定义 类 的 对 象 ， 那 么 Python 会 自己 去 调 
用 其 中 由 你 实现 的 __len__ 方法。 


然而 如 果 是 Python 内 置 的 类 型 ， 比 如 列表 (list), FF (str)、 字 节 序 列 (bytearray) 
等 ， 那 么 CPython 会 抄 个 近 路 ，__len__ 实际 上 会 直接 返回 PyVarobject 里 的 ob_size 属 
HE. PyVarObject 是 表示 内 存 中 长 度 可 变 的 内 置 对 象 的 C 语言 结构 体 。 直 接 读 取 这 个 值 比 
调用 一 个 方法 要 快 很 多 。 
很 多 时 候 ， 特 殊 方法 的 调用 是 隐 式 的 ， 比 如 for i in x: 这 个 语句 ， 背 后 其 实用 的 是 
iter(x)， 而 这 个 函数 的 背后 则 是 x._iter_() 方法 。 当 然 前 提 是 这 个 方法 在 x 中 被 实现 了 。 














注 5: 在 Python 2 中 ， 对 object 的 继承 需要 显 式 地 写 为 FrenchDeck(object)， 而 在 Python 3 中 ， 这 个 继承 
关系 是 默认 的 。 
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通常 你 的 代码 无 需 直接 使 用 特殊 方法 。 除 非 有 大 量 的 元 编程 存在 ， 直 接 调用 特殊 方法 的 频 
率 应 该 远 远 低 于 你 去 实现 它们 的 次 数 。 唯 一 的 例外 可 能 是 _intt 方法 ， 你 的 代码 里 可 能 
经 常会 用 到 它 ， 目 的 是 在 你 自己 的 子 类 的 _init__ 方 法 中 调用 超 类 的 构造 器 。 


通过 内 置 的 函数 (例如 len、iter、str， 等 等 ) 来 使 用 特殊 方法 是 最 好 的 选择 。 这 些 内 置 
函数 不 仅 会 调用 特殊 方法 ， 通 常 还 提供 额外 的 好 处 ， 而 且 对 于 内 置 的 类 来 说 ， 它 们 的 速度 
更 快 。14.12 市 中 有 详细 的 例子 。 

不 要 自己 想当然 地 随意 添加 特殊 方法 ， 比 如 __foo__ 之 类 的 ， 因 为 虽然 现在 这 个 名 字 没 有 
被 Python 内 部 使 用 ， 以 后 就 不 一 定 了 。 


1.2.1 ”模拟 数值 类 型 
利用 特殊 方法 ， 可 以 让 自 定义 对 象 通过 加 号 “+”( 或 是 别 的 运算 符 ) 进行 运算 。 第 13 章 
对 此 有 详细 的 介绍 ， 现 在 只 是 借用 这 个 例子 来 展示 特殊 方法 的 使 用 。 

我 们 来 实现 一 个 二 维 向 量 (vector) 类 ， 这 里 的 向 量 就 是 欧 几 里 得 几何 中 常用 的 概念 ， 常 
在 数学 和 物理 中 使 用 的 那个 〈 见 图 1-1)。 







































































Vector(4, 5) 


Vector(2, 4) 






Vector(2, 1) 











B 1-1: 一 个 二 维 向 量 加 法 的 例子 ，Vector(2,4) + Vextor(2,1) = Vector(4,5) 


Python 内 置 的 complex 类 可 以 用 来 表示 二 维 向 量 ， 但 我 们 这 个 自 定义 的 类 可 
以 扩展 到 维 向 量 ， 详 见 第 14 章 。 














为 了 给 这 个 类 设计 API， 我 们 先 写 个 模拟 的 控制 台 会 话 来 做 doctest。 下 面 这 一 段 代码 就 是 
图 1-1 所 示 的 向 量 加 法 : 


>>> v1 = Vector(2, 4) 
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>>> v2 = Vector(2, 1) 
>>> v1 + v2 
Vector(4, 5) 


注意 其 中 的 + 运算 符 所 得 到 的 结果 也 是 一 个 向 量 ， 而 且 结 果 能 被 控制 台 友好 地 打印 出 来 。 
abs 是 一 个 内 置 函数 ， 如 果 输 入 是 整数 或 者 浮 点 数 ， 它 返回 的 是 输入 值 的 绝对 值 ， 如 果 输 
入 是 复数 (complex number) ， 那 么 返回 这 个 复数 的 模 。 为 了 保持 一 致 性 ， 我 们 的 API ERE 
到 abs 函数 的 时 候 ， 也 应 该 返回 该 向 量 的 模 : 

>>> v = Vector(3, 4) 


>>> abs(v) 
5.0 


我 们 还 可 以 利用 * 运算 符 来 实现 向 量 的 标量 乘法 〈 即 向 量 与 数 的 乘法 ， 得 到 的 结果 向 量 的 
方向 与 原 向 量 一 致 "， 模 变 大 ) : 

>>> v * 3 

Vector(9, 12) 

>>> abs(v * 3) 

15.0 


示例 1-2 包含 了 一 个 Vector 类 的 实现 ， 上 面 提 到 的 操作 在 代码 里 是 用 这 些 特殊 方法 实现 
AY: _repr 、_abs 、 add 和 muL 。 


示例 1-2 一 个 简单 的 二 维 向 量 类 


from math import hypot 
























































class Vector: 


def _ init_(self, x=0, y=0): 
self.x = x 
self.y = y 


def _ repr_ (self): 
return 'Vector(%r, %r)' % (self.x, self.y) 


def _abs_ (self): 
return hypot(self.x, self.y) 


def _bool_ (self): 
return bool(abs(self)) 


def _add_ (self, other): 
x = self.x + other.x 
y = self.y + other.y 
return Vector(x, y) 


def _mul_ (self, scalar): 
return Vector(self.x * scalar, self.y * scalar) 





注 6: 如 果 向 量 与 负数 相 乘 ， 得 到 的 结果 向 量 的 方向 与 原 向 量 相反 。 一 编者 注 
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虽然 代码 里 有 6 个 特殊 方法 ， 但 这 些 方法 (BRT _init_) 并 不 会 在 这 个 类 自身 的 代码 中 
使 用 。 即 便 其 他 程序 要 使 用 这 个 类 的 这 些 方 法 ， 也 不 会 直接 调用 它们 ， 就 像 我 们 在 上 面 的 
控制 台 对 话 中 看 到 的 。 上 文 也 提 到 过 ， 一 般 只 有 Python 的 解释 器 会 频 党 地 直接 调用 这 些 方 
法 。 接 下 来 看 看 每 个 特殊 方法 的 实现 。 


1.2.2 ”字符 串 表 示 形 式 


Python 有 一 个 内 置 的 函数 叫 repr ， 它 能 把 一 个 对 象 用 字符 串 的 形式 表达 出 来 以 便 辨认 ， 这 
就 是 “字符 串 表 示 形 式 ”。repr 就 是 通过 repr 这 个 特殊 方法 来 得 到 一 个 对 象 的 字符 串 
表示 形式 的 。 如 果 没 有 实现 _repr__， 当 我 们 在 控制 台 里 打印 一 个 向 量 的 实例 时 ， 得 到 的 
字符 串 可 能 会 是 <Vector object at 0x10e100070>, 


交互 式 控制 台 和 调试 程序 (debugger) 用 repr 函数 来 获取 字符 串 表示 形式 ;在 老 的 使 用 % 
符号 的 字符 串 格 式 中 ， 这 个 国 数 返 回 的 结果 用 来 代替 %r 所 代表 的 对 象 ， 同样 ，str.format 
国 数 所 用 到 的 新 式 字符 串 格式 化 语法 (https://docs.python.org/2/library/string.html#format- 
string-syntax) 也 是 利用 了 repr, FHE !r 字段 变 成 字符 串 。 


% Fil str. format 这 两 种 格式 化 字符 串 的 手段 在 本 书 中 都 会 使 用 。 其 实 整个 
Python 社区 都 在 同时 使 用 这 两 种 方法 。 个 人 来 讲 ， 我 越 来 越 喜欢 str. format 
了 ， 但 是 Python 程序 员 更 喜欢 简单 的 %。 因 此 ， 这 两 种 形式 并 存 的 情况 还 会 
寺 续 下 去 。 































































































在 _repr_ 的 实现 中 ， 我 们 用 到 了 %r 来 获取 对 象 各 个 属性 的 标准 字符 串 表 示 形 式 一 一 这 
是 个 好 习惯 ， 它 暗示 了 一 个 关键 : Vector(1，2) 和 Vector('1' ， '2') 是 不 一 样 的 ， 后 者 在 
我 们 的 定义 中 会 报错 ， 因 为 向 量 对 象 的 构造 国 数 只 接受 数值 ， 不 接受 字符 串 “。 

repr 所 返回 的 字符 串 应 该 准确 、 无 歧义 ， 并 且 尽 可 能 表达 出 如 何 用 代码 创建 出 这 个 被 
打印 的 对 象 。 因 此 这 里 使 用 了 类 似 调用 对 象 构 造 器 的 表达 形式 〈 比 如 Vector(3，4) 就 是 个 
例子 )。 


repr_ 和 __str_ 的 区 别 在 于 ， 后 者 是 在 str() 函数 被 使 用 ， 或 是 在 用 print 函数 打印 
一 个 对 象 的 时 候 才 被 调用 的 ， 并 且 它 返回 的 字符 串 对 终端 用 户 更 友好 。 

如 果 你 只 想 实 现 这 两 个 特殊 方法 中 的 一 个 ，_repr_ 是 更 好 的 选择 ， 因 为 如 果 一 个 对 象 没 
A str 函数 ， 而 Python 又 需要 调用 它 的 时 候 ， 解 释 器 会 用 repr 作为 末代 。 





























“Difference between __str__ and __repr__ in Python” (http://stackoverflow.com/ 
questions/1436703/difference-between-str-and-repr-in-python) 是 Stack Overflow 上 
的 一 个 问题 ，Python 程序 员 Alex Martelli 和 Martijn Pieters 的 回答 很 精彩 。 

















注 7: Shek, Vector 的 构造 国 数 接受 字符 串 。 而 且 ， 对 于 使 用 字符 串 构 造 的 vector， 这 6 个 特殊 方法 中 ， 
只 有 _abs_ 和 booL_ 会 报错 。 此 外 ，1.2.4 市 定义 的 _bool_ 不 会 报错 。 编者 注 
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1.2.3 ”算术 运算 符 


通过 _add_ 和 _mul ,示例 1-2 为 向 量 类 带 来 了 + 和 * 这 两 个 算术 运算 符 。 值 得 注意 的 
是 ， 这 两 个 方法 的 返回 值 都 是 新 创建 的 向 量 对 象 ， 被 操作 的 两 个 向 量 (self 或 other) 还 
是 原封 不 动 ， 代 码 里 只 是 读 取 了 它们 的 值 而 已 。 中 组 运算 符 的 基本 原则 就 是 不 改变 操作 对 
象 ， 而 是 产 出 一 个 新 的 值 。 第 13 章 会 谈 到 更 多 这 方面 的 问题 。 























示例 1-2 只 实现 了 数字 做 乘 数 、 向 量 做 被 乘 数 的 运算 ， 乘 法 的 交换 律 则 被 忽 
略 了 。 在 第 13 章 里 ， 我 们 将 利用 _rmuL_ 解决 这 个 问题 。 











1.2.4 自 定 义 的 布尔 值 

尽管 Python 里 有 bool 类 型 ， 但 实际 上 任何 对 象 都 可 以 用 于 需要 布尔 值 的 上 下 文中 〈 比 如 
if KM while 语句 ,或 者 and、or 和 not 运算 符 )。 为 了 判定 一 个 值 x 为 真 还 是 为 假 ，Python 
会 调用 bool(x)， 这 个 函数 只 能 返回 True 或 者 False, 

默认 情况 下 ， 我 们 自己 定义 的 类 的 实例 总 被 认为 是 真 的 ， 除 非 这 个 类 对 __bool 或 者 __ 
len_ 函数 有 自己 的 实现 。bool(x) 的 背后 是 调用 x.__bool_() 的 结果 ; 如果 不 存在 __ 
bool 方法， 那么 bool(x) 会 尝试 调用 x._len_()。 若 返回 0， 则 bool 会 返回 False; 否 
则 返回 True。 

我 们 对 __bool__ 的 实现 很 简单 ， 如 果 一 个 向 量 的 模 是 0， 那 么 就 返回 FaLtse， 其 他 情况 则 
返回 True。 因 为 _bool__ 函数 的 返回 类 型 应 该 是 布尔 型 ， 所 以 我 们 通过 bool(abs(self)) 
把 模 值 变 成 了 布尔 值 。 


在 Python 标准 库 的 文档 中 ， 有 一 节 叫 作 “Built-in Types” (https://docs.python.org/3/library/ 
stdtypes.html#truth) ， 其 中 规定 了 真 值 检验 的 标准 。 通 过 实现 _booL _， 你 定义 的 对 象 就 可 
以 与 这 个 标准 保持 一 致 。 


如 果 想 让 Vector._bool 更 高 效 ， 可 以 采用 这 种 实现 : 
def _bool_ (self): 
return bool(self.x or self.y) 
它 不 那么 易 读 ， 却 能 省 掉 从 abs 到 __abs__ 到 平方 再 到 平方 根 这 些 中 间 步 又 。 
通过 bool 把 返回 类 型 显 式 转换 为 布尔 值 是 为 了 符合 bool 对 返回 值 的 规 
定 ， 因 为 or 运算 符 可 能 会 返回 x 或 者 y 本 身 的 值 : 若 x 的 值 等 价 于 真 ， 则 
or 返回 x 的 值 ， 否 则 返回 y 的 值 。 



















































































1.3 ”特殊 方法 一 览 


Python 语言 参考 手册 中 的 “Data Model” (https://docs.python.org/3/reference/datamodel.htm! ) 





ez 
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Oo 
# 
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一 章 列 出 了 83 个 特殊 方法 的 名 字 ， 甚 中 47 个 用 于 实现 算术 运算 、 位 运算 和 比较 操作 。 


表 1-1 和 表 1-2 列 出 了 这 些 方 法 的 概况 。 
























































这 些 表 并 没有 完全 按照 官方 文档 分 组 。 

表 1-1: 跟 运 算 符 无 关 的 特殊 方法 

类 别 方法 名 

字符 串 / 字 节 序 列 repr str format__, __bytes__ 

表示 形式 

数值 转换 abs bool complex. int float hash __index__ 

集合 模拟 len getitem setitem delitem contains 

VE CAS __iter__, __reversed__, __next__ 

可 调用 模拟 eau 

上 下 文 管理 _enter 、_ exit __ 

实例 创建 和 销 和 new, _init_, _del 

属性 管理 __getattr__, __getattribute setattr delattr. dir 

属性 描述 符 get set delete 

跟 类 相关 的 服务 __prepare__, __instancecheck__, __subclasscheck__ 

表 1-2: 跟 运 算 符 相关 的 特殊 方法 

类 别 方法 名 和 对 应 的 运算 符 

一 元 运算 符 _neg -、_pos +, __abs__ abs() 

众多 比较 运算 符 lt_ <, _le_ <=, _eq_ == ne__ != gt__ >, _ge_ >= 

算术 运算 符 _add +、_ sub -, _mul__ *, __truediv__ /, __floordiv__ //, __ 
mod__ %, __divmod__ divmod(), __pow__ ** BK pow(), __round__ round() 

反 向 算术 运算 符 __radd__, __rsub__, __rmul__, __rtruediv__, __rfloordiv__, __rmod__, 

rdivmod rpow 

增 量 赋值 算术 运算 符 __iadd__| __isub__, __imul__, __itruediv__, __ifloordiv__, __imod__, 
__ipow__ 

位 运算 符 __invert__ ~, __lshift__ <<, __rshift__ >>, __and & or o 
EA N 

反 向 位 运算 符 __rlshift rrshift rand rxor. ror 

增 量 赋值 位 运算 符 ilshift irshift iand ixor ior 





当 交 换 两 个 操作 数 的 位 置 时 ， 就 会 调 月 





有 反 向 运算 符 (b * a 而 不 是 a * b), 


增 量 赋值 运算 符 则 是 一 种 把 中 绿 运 算 符 变 成 赋值 运算 的 捷径 (a = a * bit 


变 成 了 a *= b)。 第 13 章 会 对 这 两 者 人 





ELH 
ru 





H 详 细 解 释 。 
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1.4 为 什么 Len 不 是 普通 方法 


我 在 2013 年 问 核 心 开 发 者 Raymond Hettinger 这 个 问题 时 ， 他 用 “Python 2%” (https:// 
www.python.org/doc/humor/#the-zen-of-python) 里 的 原 话 回答 了 我 :“ 实 用 胜 于 ”在 
1.2 PEREI, WMR x 是 一 个 内 置 类 型 的 实例 ， 那 么 Len(x) 的 速度 会 非常 快 。 背 后 的 
原因 是 CPython 会 直接 从 一 个 C 结构 体 里 读 取 对 象 的 长 度 ， 完全 不 会 调用 任何 方法 。 
一 个 集合 中 元 素 的 数量 是 一 个 很 常见 的 操作 ， 在 str、list、memoryview 等 类 型 上 ， 

操作 必须 高 效 。 

MAUL, len 之 所 以 不 是 一 个 普通 方法 ， 是 为 了 让 Python 自 带 的 数据 结构 可 以 走后门 ， 
abs 也 是 同 理 。 但 是 多 亏 了 它 是 特殊 方法 ， 我 们 也 可 以 把 len 用 于 自 定 义 数 据 类 型 。 这 种 
处 理 方式 在 保持 内 置 类 型 的 效率 和 保证 语言 的 一 致 性 之 间 找 到 了 一 个 平衡 点 ， 也 印证 了 
“Python 之 禅 ”中 的 另外 一 句 话 :“ 不 能 让 特例 特殊 到 开始 破坏 既定 规则 。” 


如 果 把 abs 和 len 都 看 作 一 元 运算 符 的 话 ， 你 也 许 更 能 接受 它们 一 一 虽然 看 
起 来 像 面 向 对 象 语言 中 的 函数 ， 但 实际 上 又 不 是 函数 。 有 一 门 叫 作 ABC 的 
语言 是 Python 的 直系 祖先 ， 它 内 置 了 一 个 # 运 算 符 ， 当 你 写 出 # 的 时 候 ， 
它 的 作用 跟 len 一样。 如 果 写 成 x#s 这 样 的 中 级 运算 符 的 话 ， 那 么 它 的 作用 
是 计算 s 中 x 出现 的 次 数 。 在 Python 里 对 应 的 写法 是 s.count(x)。 注 意 这 里 
的 s 是 一 个 序列 类 型 。 

















1.5 本章 小 结 


通过 实现 特殊 方法 ， 自 定义 数据 类 型 可 以 表现 得 跟 内 置 类 型 一 样 ， 从 而 让 我 们 写 出 更 具 表 
达 力 的 代码 
Python 对 象 的 一 个 基本 要 求 就 是 它 得 有 合理 的 字符 串 表 示 形 式 ， 我 们 可 以 通过 repr 
str 来 满足 这 个 要 求 。 前 者 方便 我 们 调试 和 记录 日 志 ， 后 者 则 是 给 终端 用 户 看 的 。 

就 是 数据 模型 中 存在 特殊 方法 repr Astr 的 原因 。 


对 序列 数据 类 型 的 模拟 是 特殊 方法 用 得 最 多 的 地 方 ， 这 一 点 在 FrenchDeck 类 的 示例 中 有 所 
展现 。 在 第 2 章 中 ， 我 们 会 着 重 介 绍 序列 数据 类 型 ， 然 后 在 第 10 章 中 ， 我 们 会 把 Vector 
类 扩展 成 一 个 多 维 的 数据 类 型 ， 通 过 这 个 练习 你 将 有 机 会 实现 自 定义 的 序列 。 


Python 通过 运算 符 重 载 这 一 模式 提供 了 丰富 的 数值 类 型 ， 除了 内 置 的 那些 之 外 ， 还 有 
decimal.Decimal 和 fractions.Fraction。 这 些 数据 类 型 都 支持 中 组 算术 运算 符 。 在 第 13 
章 中 ， 我 们 还 会 通过 对 Vector 类 的 扩展 来 学 习 如 何 实现 这 些 运算 符 ， 当 然 还 会 提 到 如 何 让 
运算 符 满 足 交 换 律 和 增强 赋值 。 


Python 数据 模型 的 特殊 方法 还 有 很 多 ， 本 书 会 涵盖 其 中 的 绝 大 部 分 ， 探 讨 如 何 使 用 和 实现 
它们 。 
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1.6 延伸 阅读 


对 本 章 内 容 和 本 书 主题 来 说 ，Python 语言 参考 手册 里 的 “Data Model” 一 章 (https://docs. 
python.org/3/reference/datamodel.html) 是 最 符合 规范 的 知识 来 源 。 


Alex Martelli 的 《Python 技术 手册 (第 2 版 )》 对 数据 模型 的 讲解 很 精彩 。 我 写 这 本 书 的 
时 候 , 《Python 技术 手册 》 的 最 新 版 本 是 2006 年 出 版 的 ， 书 里 用 的 还 是 Python 2.5， 但 是 
Python 关于 数据 模型 的 概念 并 没有 太 大 的 变化 ， 而 书 中 Martelli 对 属性 访问 机 制 的 描述 ， 
应 该 是 除了 CPython 中 的 C 源 码 之 外 在 这 方面 最 权威 的 解释 。Martelli 还 是 Stack Overflow 
上 的 高 产 贡献 者 ， 在 他 名 下 差不多 有 5000 条 答案 ， 你 也 可 以 去 他 的 Stack Overflow 主页 
(http://stackoverflow.com/users/95810/alex-martelli) 上 看 看 。 


David Beazley 若 有 两 本 基于 Python 3 的 书 ， 其 中 对 数据 模型 进行 了 详尽 的 介绍 。 一 本 是 
《Python 参考 手册 (第 4 版 )》', 另 一 本 是 与 Brian K. Jones 合 著 的 《Python Cookbook (第 3 
版 ) 中 文 版 》。 

由 Gregor Kiczales, Jim des Rivieres 和 Daniel G. Bobrow 合 著 的 The Art of the Metaobject 
Protocol ( X ¥R AMOP, MIT ti fk tk, 1991 年 ) 一 书 解 释 了 元 对 象 协议 (metaobject 
protocol, MOP) 的 概念 ， 而 Python 数据 模型 便 是 对 这 一 概念 的 一 种 阐释 。 
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数据 模型 还 是 对 象 模型 


Python 文档 里 总 是 用 “Python 数据 模型 ”这 种 说 法 ， 而 大 多 数 作 者 提 到 这 个 概念 的 时 
候 会 说 “Python 对 象 模型 "“。Alex Martelli 的 《Python 技术 手册 (第 2 版 )》 和 David 
Beazley 的 《Python 参考 手册 (第 4 版 )》 是 这 个 领域 中 最 好 的 两 本 书 ， 但 是 他 们 也 
总 说 “Python 对 象 模型 "。 维 基 百 科 中 对 象 模型 的 第 一 个 定义 (http://en.wikipedia.org/ 
wiki/Object_model) 是 : 计算 机 编程 语言 中 对 象 的 属性 。 这 正好 是 “Python 数据 模型 ” 
所 要 描述 的 概念 。 我 在 本 书 中 一 直 都 会 用 “数据 模型 ”这 个 词 ， 首 先是 因为 在 Python 
文档 里 对 这 个 词 有 偏爱 ， 另 外 一 个 原因 是 Python 语言 参考 手册 中 与 这 里 讨论 的 内 容 
最 相关 的 一 章 的 标题 就 是 “数据 模型 ”(https://docs.python.org/3/reference/datamodel. 
html) 。 


魔术 方法 

在 Ruby 中 也 有 类 似 “ 特 殊 方 法 ”的 概念 ， 但 是 Ruby 社区 称 之 为 “魔术 方法 ”， 而 实 
际 上 Python 社区 里 也 有 不 少 人 用 的 是 后 者 。 而 我 恰恰 认为 “特殊 方法 ”是 “魔术 方 
法 ”的 对 立 面 。Python 和 Ruby 都 利用 了 这 个 概念 来 提供 丰富 的 元 对 象 协 议 ， 这 不 是 
魔术 ， 而 是 让 语言 的 用 户 和 核心 开发 者 拥有 并 使 用 同样 的 工具 。 

考虑 一 下 JavaScript， 情 况 就 正好 反 过 来 了 。JavaScript 中 的 对 象 有 不 透明 的 魔术 般 的 
特性 ， 而 你 无 法 在 自 定义 的 对 象 中 模拟 这 些 行为 。 比 如 在 JavaScript 1.8.5 中 ， 用 户 的 
































注 8: 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7-115-24259-4。 一 一 编者 注 
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自 定义 对 象 不 能 有 只 读 属 性 ， 然 而 不 少 JavaScript 的 内 置 对 象 却 可 以 有 。 因 此 在 
JavaScript 中 ， 只 读 属 性 是 “魔术 ” 般 的 存在 ， 对 于 普通 的 JavaScript 用 户 而 言 ， 它 
就 像 超 能 力 一 样 。2009 年 推出 的 ECMAScript 5.1 才 让 用 户 可 以 定义 只 读 属 性 。 
JavaScript 中 跟 元 对 象 协议 有 关 的 部 分 一 直 在 进化 ， 但 由 于 历史 原因 ， 这 方面 它 还 是 赶 
不 上 Python 和 Ruby, 


元 对 象 


The Art of the Metaobject Protocal (AMOP) 是 我 最 喜欢 的 计算 机 图 书 的 标题 。 客 观 来 
说 ， 元 对 象 协议 这 个 词 对 我 们 学 习 Python 数据 模型 是 有 帮助 的 。 元 对 象 所 指 的 是 那些 
对 建构 语言 本 身 来 讲 很 重要 的 对 象 ， 以 此 为 前 提 ， 协 议 也 可 以 看 作 接口 。 也 就 是 说 ， 
元 对 象 协 议 是 对 象 模型 的 同义词 ， 它 们 的 意思 痢 是 构建 核心 语言 的 APL 

一 套 丰 富 的 元 对 象 协议 能 让 我 们 对 语言 进行 扩展 ， 让 它 支持 新 的 编程 范式 。AMOP 的 
第 一 作者 Gregor Kiczales 后 来 成 为 面向 方面 编程 的 先驱 ， 他 写 出 了 一 个 Java 扩展 叫 
AspectUJ， 用 来 实现 他 对 面向 方面 编程 的 理念 。 其 实在 Python 这 样 的 动态 语言 里 ， 更 容 
易 实 现 面向 方面 编程 。 现 在 已 经 有 几 个 Python 框架 在 做 这 件 事情 了 ， 其 中 最 重要 的 是 
zope.interface (http://docs.zope.org/zope.interface/) 。 第 11 章 的 延伸 阅读 里 会 谈 到 它 。 











第 二 部 分 





数据 结构 


第 2 章 


序列 构成 的 数组 





你 可 能 注意 到 了 ， 之 前 提 到 的 几 个 操作 可 以 无 差别 地 应 用 于 文本 、 列 表 和 表格 上 。 
我 们 把 文本 、 列 表 和 表格 叫 作 数据 火车 …… FOR 命令 通常 能 作用 于 数据 火车 上 。， 


Geurts, Meertens 和 Pemberton 
ABC Programmer s Handbook 


在 创造 Python LART, Guido 曾 为 ABC 语言 贡献 过 代码 。ABC 语言 是 一 个 致力 于 为 初学 者 
设计 编程 环境 的 长 达 10 年 的 研究 项 目 ， 其 中 很 多 点 子 在 现在 看 来 都 很 有 Python 风格 : 序 
列 的 泛 型 操作 、 内 置 的 元 组 和 映射 类 型 、 用 缩 进来 架构 的 源码 、 无 需 变量 声明 的 强 类 型 ， 
等 等 。Python 对 开发 者 如 此 友好 ， 根 源 就 在 这 里 。 


Python 也 从 ABC 那里 继承 了 用 统一 的 风格 去 处 理 序列 数据 这 一 特点 。 不 管 是 哪 种 数据 结 
构 ， 字 符 串 、 列 表 、 字 节 序 列 、 数 组 、XML 元 素 ， 抑 或 是 数据 库 查 询 结果 ， 它 们 都 共用 
一 套 丰 富 的 操作 : ER, DA. BPP, DA BHR. 


IRA HEAR Python 中 的 不 同 序列 类 型 ， 不 但 能 让 我 们 避免 重新 发 明 轮 子 ， 它 们 的 API 还 能 
帮助 我 们 把 自己 定义 的 API 设计 得 跟 原 生 的 序列 一 样 ， 或 者 是 跟 未 来 可 能 出 现 的 序列 类 型 
保持 兼容 。 


本 章 讨 论 的 内 容 几 乎 可 以 应 用 到 所 有 的 序列 类 型 上 ， 从 我 们 熟悉 的 List， 到 Python 3 中 
特有 的 str 和 bytes。 我 还 会 特别 提 到 跟 列表 、 元 组 、 数 组 以 及 队列 有 关 的 话题 。 但 是 
Unicode 字符 串 和 字 节 序列 这 方面 的 内 容 被 放 在 了 第 4 章 。 另 外 这 里 讨论 的 数据 结构 都 是 
Python 中 现成 可 用 的 ， 如 果 你 想 知 道 怎样 创建 自己 的 序列 类 型 ， 那 得 等 到 第 10 章 。 




































































注 1: Leo Geurts, Lambert Meertens, and Steven Pemberton, ABC Programmer's Handbook, p. 8. 
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2.1 a 
Python 标准 库 用 C 实现 了 丰富 的 序列 类 型 ， 列 举 如 下 。 
容器 序列 
list, tuple 和 collections.deque 这 些 序 列 能 存放 不 同类 型 的 数据 。 
扁平 序列 
str, bytes, bytearray, memoryview 和 array.array， 这 类 序列 只 能 容纳 一 种 类 型 。 


容器 序列 存放 的 是 它们 所 包含 的 任意 类 型 的 对 象 的 引用 ， 而 扁平 序列 里 存放 的 是 值 而 不 是 
引用 。 换 名 话说， 扁平 序列 其 实 是 一 段 连续 的 内 存 空 间 。 由 此 可 见 扁平 序列 其 实 更 加 紧 
次， 但 是 它 里 面 只 能 存放 诸如 字符 、 字 节 和 数值 这 种 基础 类 型 。 


序列 类 型 还 能 按照 能 否 被 修改 来 分 类 。 
可 变 序 列 


























list, bytearray, array.array, collections.deque 和 memoryview, 
不 可 变 序列 
tuple, str 和 bytes, 


图 2-1 显示 了 可 变 序列 (MutableSequence) 和 不 可 变 序 列 (Sequence) 的 差异 ， 同 时 也 
能 看 出 前 者 从 后 者 那里 继承 了 一 些 方法 。 虽 然 内 置 的 序列 类 型 并 不 是 直接 从 Sequence 和 
MutableSequence 这 两 个 抽象 基 类 (Abstract Base Class, ABC) 继承 而 来 的 ， 但 是 了 解 这 
些 基 类 可 以 帮助 我 们 总 结 出 那些 完整 的 序列 类 型 包含 了 哪些 功能 


MutableSequence 
__setitem__ 
; __delitem_ 


__getitem__ insert 











lterable —Contains__ append 


一 er 一 


__reversed__ 
index 
count 


reverse 
extend 
pop 
remove 














2-1: 这 个 UML 类 图 列举 了 collections.abc 中 的 几 个 类 ( 超 类 在 左边 ， 箭 头 从 子 类 指向 超 类 ， 
斜体 名 称 代表 抽象 类 和 抽象 方法 ) 

通过 记 住 这 些 类 的 共有 特性 ， 把 可 变 与 不 可 变 序列 或 是 容器 与 扁平 序列 的 概念 融会 贯通 ， 

在 探索 并 学 习 新 的 序列 类 型 时 ， 你 会 更 加 得 心 应 手 。 


最 重要 也 最 基础 的 序列 类 型 应 该 就 是 列表 (List) T. Ust 是 一 个 可 变 序 列 ， 并 且 能 同时 
存放 不 同类 型 的 元 素 。 作 为 这 本 书 的 读者 ， 我 想 你 应 该 对 它 很 了 解 了 ， 因 此 让 我 们 直接 开 
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台 讨 论 列 表 推 导 (list comprehension) 吧 。 列 表 推 导 是 一 种 构建 列表 的 方法 ， 它 异常 强大 ， 
然而 由 于 相关 的 名 法 比较 蜀 誉 ， 人 们 往往 不 愿意 去 用 它 。 掌 握 列 表 推 导 还 可 以 为 我 们 打开 
生成 器 表达 式 (generator expression) 的 大 门 ， 后 者 具有 生成 各 种 类 型 的 元 素 并 用 它们 来 填 
充 序列 的 功能 。 下 一 节 就 来 看 看 这 两 个 概念 。 


2.2 ”列表 推导 和 生成 器 表达 式 


列表 推导 是 构建 列表 (List) 的 快捷 方式 ， 而 生成 器 表达 式 则 可 以 用 来 创建 其 他 任何 类 型 
的 序列 。 如 果 你 的 代码 里 并 不 经 常 使 用 它们 ， 那 么 很 可 能 你 错过 了 许多 写 出 可 读 性 更 好 且 
更 高 效 的 代码 的 机 会 。 


如 果 你 对 我 说 的 “更 具 可 读 性 ” 持 怀 疑 态度 的 话 ， 别 急 着 下 结论 ， 我 马上 就 能 说 服 你 。 





很 多 Python 程序 员 都 把 列表 推导 (list comprehension) 简称 为 listcomps， 生 
成 器 表达 式 (generator expression) 则 称 为 genexps。 我 有 时 也 会 这 么 用 。 








2.2.1 列表 推导 和 可 读 性 
先 来 个 小 测试 ， 你 觉得 示例 2-1 和 示例 2-2 中 的 代码 ， 哪 个 更 容易 读 懂 ? 
示例 2-1 把 一 个 字符 串 变 成 Unicode 码 位 的 列表 


>>> symbols = 'ScEYE 
>>> codes = [] 
>>> for symbol in symbols: 
codes. append(ord(symbolL) ) 


>>> codes 
[36, 162, 163, 165, 8364, 164] 
示例 2-2 ”把 字符 串 变 成 Unicode 码 位 的 另外 一 种 写法 
>>> symbols = 'Scé¥é€x' 
>>> codes = [ord(symbol) for symbol in symbols] 


>>> codes 
[36, 162, 163, 165, 8364, 164] 


虽说 任何 学 过 一 点 Python 的 人 应 该 都 能 看 懂 示 例 2-1， 但 是 我 觉得 如 果 学 会 了 列表 推导 的 
话 ， 示 例 2-2 读 起 来 更 方便 ， 因 为 这 段 代码 的 功能 从 字面 上 就 能 轻松 地 看 出 来 。 

For 循环 可 以 胜任 很 多 任务 : 遍历 一 个 序列 以 求 得 总 数 或 挑 出 某 个 特定 的 元 素 、 用 来 计算 
总 和 或 是 平均 数 ， 还 有 其 他 任何 你 想 做 的 事情 。 在 示例 2-1 的 代码 里 ， 它 被 用 来 新 建 一 个 
列表 。 

另 一 方面 ， 列 表 推 导 也 可 能 被 滥用 。 以 前 看 到 过 有 的 Python 代码 用 列表 推导 来 重复 获取 一 
个 函数 的 副作用 。 通 常 的 原则 是 ， 只 用 列表 推导 来 创建 新 的 列表 ， 并 且 尽 量 保持 简短 。 如 
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果 列 表 推导 的 代码 超过 了 两 行 ， 你 可 能 就 要 考虑 是 不 是 得 用 for 循环 重 写 了 。 就 跟 写 文章 
一 样 ， 并 没有 什么 硬性 的 规则 ， 这 个 度 得 你 自己 把 握 。 

句法 提示 

Python 会 忽略 代码 里 [] 、{} AO 中 的 换行 ， 因 此 如 果 你 的 代码 里 有 多 行 的 列 

表 、 列 表 推导 、 生 成 器 表达 式 、 字 典 这 一 类 的 ， 可 以 省 略 不 太 好 看 的 续 行 符 \。 


























列表 推导 不 会 再 有 变量 泄漏 的 问题 
Python 2.x 中 ， 在 列表 推导 中 for 关键 词 之 后 的 赋值 操作 可 能 会 影响 列表 推导 上 下 文中 
的 同名 变量 。 像 下 面 这 个 Python 2.7 控制 台 对 话 : 
Python 2.7.6 (default, Mar 22 2014, 22:59:38) 


[GCC 4.8.2] on Linux2 
Type "help", "copyright", "credits" or "license" for more information. 


>>> x = 'my precious’ 

>>> dummy = [x for x in 'ABC'] 
>>> X 

EE 


如 你 所 见 ，x 原本 的 值 被 取代 了 ， 但 是 这 种 情况 在 Python 3 中 是 不 会 出 现 的 。 


列表 推导 、 生 成 器 表达 式 ， 以 及 同 它们 很 相似 的 集合 (set) 推导 和 字典 (dict) 推 
导 ， 在 Python 3 中 都 有 了 自己 的 局 部 作用 域 ， 就 像 函 数 似 的 。 表 达 式 内 部 的 变量 和 赋 
值 只 在 局 部 起 作用 ， 表 达 式 的 上 下 文 里 的 同名 变量 还 可 以 被 正常 引用 ， 局 部 变量 并 不 


会 影响 到 它们 。 
这 是 Python 3 代码 : 


>>> x = 'ABC' 

>>> dummy = [ord(x) for x in x] 
>>> x 0 

"ABC' 

>>> dummy @ 

[65, 66, 67] 


Ox 的 值 被 保留 了 。 
O 列表 推导 也 创建 了 正确 的 列表 。 























列表 推导 可 以 帮助 我 们 把 一 个 序列 或 是 其 他 可 迭代 类 型 中 的 元 素 过 让 或 是 加 工 ， 然 后 再 新 
建 一 个 列表 。Python 内 置 的 filter 和 map 函数 组 合 起 来 也 能 达到 这 一 效果 ， 但 是 可 读 性 上 
打 了 不 小 的 折扣 。 





序列 构成 的 数组 | 19 


2.2.2 ”列表 推导 同 fiLter 和 map 的 比较 


filter 和 map 合 起 来 能 做 的 事情 ， 列 表 推 导 也 可 以 做 ， 而 且 还 不 需要 借助 难以 理解 和 阅读 
的 Lambda 表达 式 。 详 见 示 例 2-3。 


示例 2-3 ”用 列表 推导 和 map/Filter 组 合 来 创建 同样 的 表单 
>>> symbols = 'Scé¥é€x' 
>>> beyond_ascii = [ord(s) for s in symbols if ord(s) > 127] 
>>> beyond_asciti 
[162, 163, 165, 8364, 164] 
>>> beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols))) 
>>> beyond_ascii 
[162, 163, 165, 8364, 164] 


我 原 以 为 map/fitter 组 合 起 来 用 要 比 列表 推导 快 一 些 ，Alex Martelli 却说 不 一 定 一 一 至 
少 在 上 面 这 个 例子 中 不 一 定 。 在 本 书 的 代码 仓库 (https://github.com/fluentpython/example- 
code) 中 有 名 为 02-array-seq/listcomp_speed.py (https://github.com/fluentpython/example-code/ 
blob/master/02-array-seq/listcomp_speed.py) 的 脚本 ， 代 码 中 有 这 两 个 方法 的 效率 的 比较 。 
第 5 章 会 更 详细 地 讨论 map 和 fitLter。 下 面 就 来 看 看 如 何 用 列表 推导 来 计算 笛 卡 儿 积 : 两 
个 或 以 上 的 列表 中 的 元 素 对 构成 元 组 ， 这 些 元 组 构成 的 列表 就 是 笛 卡 儿 积 。 


2.2.3 笛 卡 儿 积 


如 前 所 述 ， 用 列表 推导 可 以 生成 两 个 或 以 上 的 可 迭代 类 型 的 笛 卡 儿 积 。 稍 卡 儿 积 是 一 个 列 
表 ， 列 表 里 的 元 素 是 由 输入 的 可 迭代 类 型 的 元 素 对 构成 的 元 组 ， 因 此 笛 卡 儿 积 列 表 的 长 度 
等 于 输入 变量 的 长 度 的 乘积 ， 如 图 2-2 所 示 。 
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图 2-2: 含有 4 种 花色 和 3 种 牌 面 的 列表 的 笛 卡 儿 积 ， 结 果 是 一 个 包含 12 个 元 素 的 列表 




















如 果 你 需要 一 个 列表 ， 列 表 里 是 3 种 不 同 尺 寸 的 了 恤衫 ， 每 个 尺寸 都 有 2 个 颜色 ， 示 例 
2-4 用 列表 推导 算出 了 这 个 列表 ， 列 表 里 有 6 种 组 合 。 


示例 2-4 ”使 用 列表 推导 计算 笛 卡 儿 积 
>>> colors = ['black', 'white'] 
>>> sizes = ['S', 'M', 'L'] 
>>> tshirts = [(color, size) for color in colors for size in sizes] @ 
>>> tshirts 
[('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), 
('white', 'M'), ('white', 'L')] 
>>> for color in colors: @ 
for size in sizes: 
print((color, size)) 











('black', ' 


S') 
('black', 'M') 
('black', 'L') 
('white', 'S') 
('white', 'M') 
('white', 'L') 
>>> tshirts = [(color, size) for size in sizes © 


A for color in colors] 

>>> tshirts 
[('black', 'S' 
('black', 'L' 


, Cwhite', 'S'), ('black', 'M'), ('white', 'M'), 

, Cwhite', 'L')] 

@ 这 里 得 到 的 结果 是 先 以 颜色 排列 ， 再 以 尺码 排列 。 

O 注意 ， 这 里 两 个 循环 的 嵌 套 关系 和 上 面 列表 推导 中 for 从 句 的 先后 顺序 一 样 。 

O 如 果 想 依照 先 尺 码 后 颜色 的 顺序 来 排列 ， 只 需要 调整 从 名 的 顺序 。 我 在 这 里 插入 了 一 个 
换行 符 ， 这 样 顺 序 安 排 就 更 明显 了 。 

在 第 1 章 的 示例 1-1 中 ， 有 下 面 这 样 一 段 程序 ， 它 的 作用 是 生成 一 个 按 花色 分 组 的 52 张 牌 

的 列表 ， 其 中 每 个 花色 各 有 13 张 不 同 点 数 的 牌 。 


self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


列表 推导 的 作用 只 有 一 个 : 生成 列表 。 如 果 想 生成 其 他 类 型 的 序列 ， 生 成 器 表达 式 就 派 上 
了 用 场 。 下 一 节 就 是 对 生成 器 表达 式 的 一 个 简单 介绍 ， 其 中 可 以 看 到 如 何 用 它 生 成 列表 以 
外 的 序列 类 型 。 


2.2.4 生成 器 表达 式 


虽然 也 可 以 用 列表 推导 来 初始 化 元 组 、 数 组 或 其 他 序列 类 型 ， 但 是 生成 器 表达 式 是 更 好 的 
选择 。 这 是 因为 生成 堪 表 达 式 背后 遵守 了 和 迭代 器 协议 ， 可 以 逐个 地 产 出 元 素 ， 而 不 是 先 建 
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立 一 个 完整 的 列表 ， 然 后 再 把 这 个 列表 传递 到 某 个 构造 函数 里 。 前 面 那 种 方式 显然 能 够 市 
省 内 存 。 











生成 器 表达 式 的 语法 跟 列 表 推 导 差 不 多 ， 只 不 过 把 方 括号 换 成 圆 括 号 而 已 。 
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示例 2-5 展示 了 如 何 用 生成 器 表达 式 建立 元 组 和 数组 。 
示例 2-5 ”用 生成 器 表达 式 初始 化 元 组 和 数组 


>>> symbols = 'Şċf¥€n' 

>>> tuple(ord(symbol) for symbol in symbols) @ 

(36, 162, 163, 165, 8364, 164) 

>>> import array 

>>> array.array('I', (ord(symbol) for symbol in symbols)) @ 
array('I', [36, 162, 163, 165, 8364, 164]) 


O 如 果 生 成 器 表达 式 是 一 个 国 数 调用 过 程 中 的 唯一 参数 ， 那 么 不 需要 额外 再 用 括号 把 它 转 
起 来 。 

O array 的 构造 方法 需要 两 个 参数 ， 因 此 括号 是 必需 的 。array 构造 方法 的 第 一 个 参数 指 
定 了 数组 中 数字 的 存储 方式 。2.9.1 节 中 有 更 多 关于 数组 的 详细 讨论 。 


示例 2-6 则 是 利用 生成 器 表达 式 实现 了 一 个 笛 卡 儿 积 ， 用 以 打印 出 上 文中 我 们 提 到 过 的 
恤衫 的 2 种 颜色 和 3 种 尺码 的 所 有 组 合 。 与 示例 2-4 不 同 的 是 ， 用 到 生成 器 表达 式 之 后 ， 
内 存 里 不 会 留 下 一 个 有 6 个 组 合 的 列表 ， 因 为 生成 器 表达 式 会 在 每 次 for 循环 运行 时 才 生 
成 一 个 组 合 。 如 果 要 计算 两 个 各 有 1000 个 元 素 的 列表 的 笛 卡 儿 积 ， 生 成 器 表达 式 就 可 以 
帮忙 省 掉 运 行 for 循环 的 开销 ， 即 一 个 含有 100 万 个 元 素 的 列表 。 


示例 2-6 使 用 生成 器 表达 式 计算 笛 卡 儿 积 
>>> colors = ['black', 'white'] 
>>> sizes = ['S', 'M', 'L'] 
>>> for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes): @ 
print(tshirt) 






























































black S 
black M 
black L 
white S 
white M 
white L 


O 生成 器 表达 式 逐 个 产 出 元 素 ， 从 来 不 会 一 次 性 产 出 一 个 含有 6 个 工 恤 样 式 的 列表 。 


第 14 章 会 专门 讲 到 生成 器 的 工作 原理 。 这 里 只 是 简单 看 看 如 何 用 生成 器 来 初始 化 除 列 表 
之 外 的 序列 ， 以 及 如 何 用 它 来 避免 额外 的 内 存 占 用 。 


接 下 来 看 看 Python 中 的 另外 一 个 很 重要 的 序列 类 型 : JCH (tuple), 
2.3 元 组 不 仅仅 是 不 可 变 的 列表 
ALE Python 入 门 教程 把 元 组 称 为 “不 可 变 列表 ”， 然 而 这 并 没有 完全 概括 元 组 的 特点 。 除 


了 用 作 不 可 变 的 列表 ， 它 还 可 以 用 于 没有 字段 名 的 记录 。 鉴 于 后 者 常常 被 忽略 ， 我 们 先 来 
看 看 元 组 作为 记录 的 功用 。 

















2.3.1 元 组 和 记录 


元 组 其 实 是 对 数据 的 记录 : 元 组 中 的 每 个 元 素 都 存放 了 记录 中 一 个 字段 的 数据 ， 外 加 这 个 
字段 的 位 置 。 正 是 这 个 位 置信 息 给 数据 赋予 了 意义 。 


如 果 只 把 元 组 理解 为 不 可 变 的 列表 ， 那 其 他 信息 一 一 它 所 含有 的 元 素 的 总 数 和 它们 的 位 
置 一 一 似乎 就 变 得 可 有 可 无 。 但 是 如 果 把 元 组 当 作 一 些 字 段 的 集合 ， 那 么 数量 和 位 置信 息 
就 变 得 非常 重要 了 。 
示例 2-7 中 的 元 组 就 被 当 作 记 录 加 以 利用 。 如 果 在 任何 的 表达 式 里 我 们 在 元 组 内 对 元 素 排 
序 ， 这 些 元 素 所 携带 的 信息 就 会 丢失 ， 因 为 这 些 信 息 是 跟 它 们 的 位 置 有 关 的 。 


示例 2-7 把 元 组 用 作 记 录 
>>> lax_coordinates = (33.9425, -118.408056) @ 
>>> city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014) @ 
>>> traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), © 
('ESP', 'XDA205856')] 
>>> for passport in sorted(traveler_ids): @ 
print('%s/%s' % passport) 加 












































BRA/CE342567 

ESP/XDA205856 

USA/31195855 

>>> for country, _ in traveler_ids: @ 
print(country) 


USA 
BRA 
ESP 


O 洛杉矶 国际 机 场 的 经 纬度 。 

O 东京 市 的 一 些 信息 : 市 名 、 年 份 、 人口 (单位 : 百 万 )、 人 口 变化 (单位 : 百分比 ) 和 
面积 (单位 : PATA). 

O 一 个 元 组 列表 ， 元 组 的 形式 为 (country_code，passport_number ) 。 

O KCAL, passport 变量 被 绑 定 到 每 个 元 组 上 。 

O % 格 式 运算 符 能 被 匹配 到 对 应 的 元 组 元 素 上 。 

© for 循环 可 以 分 别提 取 元 组 里 的 元 素 ， 也 叫 作 拆 包 (unpacking)。 因 为 元 组 中 第 二 个 元 
素 对 我 们 没有 什么 用 ， 所 以 它 赋 值 给 “_” 占 位 符 。 


拆 包 让 元 组 可 以 完美 地 被 当 作 记录 来 使 用 ， 这 也 是 下 一 市 的 话题 。 


2.3.2 元 组 拆 包 


示例 2-7 中 ， 我 们 把 元 组 ('Tokyo', 2003, 32450, 0.66, 8014) 里 的 元 素 分 别 赋值 给 变量 
city, year, pop, chg 和 area， 而 这 所 有 的 赋值 我 们 只 用 一 行 声明 就 写 完 了 。 同 样 ， 在 
面 一 行 中 ， 一 个 % 运 算 符 就 把 passport 元 组 里 的 元 素 对 应 到 了 print 函数 的 格式 字符 串 空 
档 中 。 这 两 个 都 是 对 元 组 拆 包 的 应 用 。 
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元 组 拆 包 可 以 应 用 到 任何 可 迭代 对 象 上 ， 唯 一 的 硬性 要 求 是 ， 被 可 迭代 对 象 
中 的 元 素数 量 必须 要 跟 接受 这 些 元 素 的 元 组 的 空 档 数 一 致 。 除 非 我 们 用 * 来 
表示 忽略 多 余 的 元 素 ， 在 “用 * 来 处 理 多 余 的 元 素 ”一 节 里 ， 我 会 讲 到 它 的 
具体 用 法 。Python 爱好 者 们 很 喜欢 用 元 组 拆 包 这 个 说 法 ， 但 是 可 选 代 元 素 拆 
包 这 个 表达 也 慢 慢 流行 了 起 来 ， 比 如 “ PEP 3132 一 Extended Iterable Unpacking” 
(https:/www.python.org/dev/peps/pep-3132/) 的 标题 就 是 这 么 用 的 。 
































最 好 辨认 的 元 组 拆 包 形式 就 是 平行 赋值 ， 也 就 是 说 把 一 个 可 迭代 对 象 里 的 元 素 ， 一 并 贱 值 
到 由 对 应 的 变量 组 成 的 元 组 中 。 就 像 下 面 这 段 代码 : 

>>> lax_coordinates = (33.9425, -118.408056) 

>>> latitude, longitude = Lax_coordinates # 元 组 拆 包 

>>> Latitude 

33.9425 


>>> Longitude 
-118.408056 


另外 一 个 很 优雅 的 写法 当 属 不 使 用 中 间 变 量 交换 两 个 变量 的 值 : 
>>> b, a=a, b 


还 可 以 用 * 运算 符 把 一 个 可 迭代 对 象 拆 开 作为 国 数 的 参数 : 


>>> divmod(20, 8) 

(2, 4) 

>>> t = (20, 8) 

>>> divmod(*t) 

(2, 4) 

>>> quotient, remainder = divmod(*t) 
>>> quotient, remainder 

(2, 4) 


下 面 是 另 一 个 例子 ， 这 里 元 组 拆 包 的 用 法 则 是 让 一 个 函数 可 以 用 元 组 的 形式 返回 多 个 值 ， 
然后 调用 函数 的 代码 就 能 轻松 地 接受 这 些 返 回 值 。 比 如 os.path.split() 函数 就 会 返回 以 
路 径 和 最 后 一 个 文件 名 组 成 的 元 组 (path，Last_part): 

>>> import os 

>>> _, filename = os.path.split('/home/luciano/.ssh/idrsa.pub') 


>>> filename 
‘idrsa.pub' 


在 进行 拆 包 的 时 候 ， 我 们 不 总 是 对 元 组 里 所 有 的 数据 都 感 兴趣 ，_ 占 位 符 能 帮助 处 理 这 种 
情况 ， 上 面 这 段 代码 也 展示 了 它 的 用 法 。 

如 果 做 的 是 国际 化 软件 ， 那 么 _ 可 能 就 不 是 一 个 理想 的 占 位 符 ， 因 为 它 也 是 
gettext.gettext 国 数 的 常用 别名 ，gettext 模块 的 文档 (https://docs.python. 


org/3/library/gettext.html) 里 提 到 了 这 一 点 。 在 其 他 情况 下 ，_ 会 是 一 个 很 好 
的 占 位 符 。 












































除 此 之 外 ， 在 元 组 拆 包 中 使 用 * 也 可 以 帮助 我 们 把 注意 力 集中 在 元 组 的 部 分 元 素 上 。 
用 * 来 处 理 剩 下 的 元 素 

在 Python 中， 函数 用 *args 来 获取 不 确定 数量 的 参数 算是 一 种 经 典 写法 了 。 

于 是 Python 3 里 ， 这 个 概念 被 扩展 到 了 平行 赋值 中 : 


>>> a, b, *rest = range(5) 
>>> a, b, rest 

(0, 1, [2, 3, 4]) 

>>> a, b, *rest = range(3) 
>>> a, b, rest 

(0, 1, [2]) 

>>> a, b, *rest = range(2) 
>>> a, b, rest 












































(0, 1, []) 
在 平行 赋值 中 ，* 前 级 只 能 用 在 一 个 变量 名 前 面 ， 但 是 这 个 变量 可 以 出 现在 赋值 表达 式 的 
任意 位 置 : 


>>> a, *body, c, d = range(5) 
>>> a, body, c, d 
(0, [1, 2], 3, 4) 
>>> *head, b, c, d = range(5) 
>>> head, b, c, d 
(fo, 1], 2, 3, 4) 


Fi TCAD IDA TIBRAK GE, Aire TA AREA 


2.3.3 RETARE 


接受 表达 式 的 元 组 可 以 是 嵌 套 式 的 ， 例 如 (a, b, (c, d)), REKAN E SK 
ft PIAA WIRE, Python 就 可 以 作出 正确 的 对 应 。 示 例 2-8 Bite RH ES CAL 
包 的 应 用 。 


示例 2-8 用 骨 套 元 组 来 获取 经 度 

metro_areas = [ 
('Tokyo','JP', 36.933, (35.689722,139.691667)), #@ 
('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
('Mexico City', 'MX', 20.142, (19.433333, -99.133333)), 
('New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 
(‘Sao Paulo’, 'BR', 19.649, (-23.547778, -46.635833)), 

] 

















print('{:15} | {:49} | {:49}'.format('', 'lat.', 'long.')) 
fmt = '{:15} | {:9.4f} | {:9.4F}' 
for name, cc, pop, (latitude, longitude) in metro_areas: # @ 
if longitude <= 0: # © 
print(fmt.format(name, Latitude, Longitude) ) 


@ 每 个 元 组 内 有 4 个 元 素 ， 其 中 最 后 一 个 元 素 是 一 对 坐标 。 
O 我 们 把 输入 元 组 的 最 后 一 个 元 素 拆 包 到 由 变量 构成 的 元 组 里 ， 这 样 就 狭 取 了 坐标 。 
© if longitude <= 0: 这 个 条 件 判断 把 输出 限制 在 西半球 的 城市 。 
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示例 2-8 的 输出 是 这 样 的 : 





| lat. | long. 
Mexico City | 19.4333 | -99.1333 
New York-Newark | 40.8086 | -74.0204 
Sao Paul | -23.5478 | -46.6358 

















在 Python 3 之 前 ,元 组 可 以 作为 形 参 放 在 函数 声明 中 ,例如 def fn(a, (b, 
c)，d):。 然 而 Python 3 不 再 支持 这 种 格式 ， 具 体 原因 见于 “PEP 3113 一 
Removal of Tuple Parameter Unpacking” (http://python.org/dev/peps/pep-3113/)。 
需要 和 弄 清 楚 的 是 ， 这 个 改变 对 函数 调用 者 并 没有 影响 ， 它 改变 的 是 某 些 函数 
的 声明 方式 。 








元 组 已 经 设计 得 很 好 用 了 ， 但 作为 记录 来 用 的 话 ， 还 是 少 了 一 个 功能 : 我 们 时 常会 需要 给 
记录 中 的 字段 命名 。namedtuple 函数 的 出 现 帮 我 们 解决 了 这 个 问题 。 


2.3.4 具名 元 组 


collections.namedtuple 是 一 个 工厂 函数 ， 它 可 以 用 来 构建 一 个 带 字段 名 的 元 组 和 一 个 有 
名 字 的 类 一 一 这 个 带 名 字 的 类 对 调试 程序 有 很 大 帮助 。 








用 namedtuple 构建 的 类 的 实例 所 消耗 的 内 存 跟 元 组 是 一 样 的 ， 因 为 字段 名 都 
被 存在 对 应 的 类 里 面 。 这 个 实例 跟 普通 的 对 象 实例 比 起 来 也 要 小 一 些 ， 因 为 
Python PRH dict 来 存放 这 些 实例 的 属性 。 



































在 第 1 章 的 示例 1-1 中 是 这 样 新 建 Card 类 的 : 


Card = collections.namedtuple('Card', ['rank', 'suit']) 








示例 2-9 展示 了 如 何 用 具名 元 组 来 记录 一 个 城市 的 信息 。 
示例 2-9 定义 和 使 用 具名 元 组 





>>> from collections import namedtuple 

>>> City = namedtuple('City', 'name country population coordinates') © 
>>> tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667)) @ 

>>> tokyo 

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 
139.691667)) 

>>> tokyo.population @ 

36.933 

>>> tokyo.coordinates 

(35.689722, 139.691667) 

>>> tokyo[1] 

'Jp' 





@ 创建 一 个 具名 元 组 需要 两 个 参数 ， 一 个 是 类 名 ， 另 一 个 是 类 的 各 个 字段 的 名 字 。 后 者 可 


以 是 由 数 个 字符 串 组 成 的 可 和 迭代 对 象 ， 或 者 是 由 空格 分 隔 开 的 字段 名 组 成 的 字符 串 。 
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O 存放 在 对 应 字段 里 的 数据 要 以 一 串 参数 的 形式 传人 到 构造 国 数 中 (注意 ， 元 组 的 构造 函 
数 却 只 接受 单一 的 可 迭代 对 象 ) 。 
O 你 可 以 通过 字段 名 或 者 位 置 来 获取 一 个 字段 的 信息 。 


除了 从 普通 元 组 那里 继承 来 的 属性 之 外 ， 具 名 元 组 还 有 一 些 自己 专 有 的 属性 。 示 例 2-10 中 
就 展示 了 几 个 最 有 用 的 : fields 类 属性 、 类 方法 _make(iterable) 和 实例 方法 _asdict()。 


示例 2-10 具名 元 组 的 属性 和 方法 (接续 前 一 个 示例 ) 
>>> City. fields @ 
('name', 'country', 'population', 'coordinates') 
>>> LatLong = namedtuple('LatLong', 'lat long') 
>>> delhi data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889)) 
>>> delhi = City._make(delhi_data) @ 
>>> delhi._asdict() © 
OrderedDict([('name', 'Delhi NCR'), ('country', 'IN'), ('population', 
21.935), ('coordinates', LatLong(lat=28.613889, Long=77.208889) )]) 
>>> for key, value in delhi._asdict().items(): 
print(key + ':', value) 














name: Delhi NCR 

country: IN 

population: 21.935 

coordinates: LatLong(lat=28.613889, long=77.208889) 
>>> 


@ _fields 属性 是 一 个 包含 含 这 个 类 所 有 字段 名 称 的 元 组 。 

@ 用 _make() 通过 接受 一 个 可 迭代 对 和 象 来 生成 这 个 类 的 一 个 实例 ， 它 的 作用 跟 
City(*delhi_data) 是 一 样 的 。 

© _asdict() 把 具名 元 组 以 collections.OrderedDict 的 形式 返回 ， 我 们 可 以 利用 它 来 把 元 
组 里 的 信息 友好 地 呈现 出 来 。 

现在 我 们 知道 了 ， 元 组 是 一 种 很 强大 的 可 以 当 作 记 录 来 用 的 数据 类 型 。 它 的 第 二 个 角色 则 

是 充当 一 个 不 可 变 的 列表 。 下 面 就 来 看 看 它 的 第 二 重 功能 


2.3.5 “作为 不 可 变 列表 的 元 组 


如 果 要 把 元 组 当 作 列表 来 用 的 话 ， 最 好 先 了 解 一 下 它们 的 相似 度 如 何 。 在 表 2-1 中 可 以 清 
楚 地 看 到 ， 除 了 跟 增 减 元 素 相关 的 方法 之 外 ， 元 组 支持 列表 的 其 他 所 有 方法 。 还 有 一 个 例 
外 ， 元 组 没有 __reversed_ 方法 ,但 是 这 个 方法 只 是 个 优化 而 已 ，reversed(my_tuple) 这 
个 用 法 在 没有 __reversed__ 的 情况 下 也 是 合法 的 。 


表 2-1: 列表 或 元 组 的 方法 和 属性 (那些 由 object 类 支持 的 方法 没有 列 出 来 ) 






























































列表 ”元 组 
s.__add__(s2) 。 。 s + s2， 拼 接 
s.__iadd__(s2) 。 s += s2， 就 地 拼接 
s.append(e) ° 在 尾部 添加 一 个 新 元 素 
s.clear() ° 删除 所 有 元 素 
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列表 TA 
s.__contains_ (e) e . 
s.copy() 
s.count(e) 
s.__delitem__(p) 
s.extend(it) 
s.__getitem__(p) 
s.__getnewargs__() 
s.index(e) 
s.insert(p, e) 
s.__iter__() 
s.__len_() 
s.__mul__(n) 
s.__imul__(n) 
s. _rmul_ (n) 
s.pop([p]) 
s.remove(e) 
s.reverse() 
s.__reversed__() 
s.__setitem_(p, e) 
s.sort([key], [reverse]) 
* 反 向 运算 符 在 第 13 章 中 介绍 。 
每 个 Python 程 
的 一 些 不 太 为 人 所 知 的 方面 。 


2.4 WR 


在 Python 里 ， 像 列表 (list), 





列表 的 浅 复制 

e 在 s 中 出 现 的 次 数 

把 位 于 p 的 元 素 删除 

FEM RR Ze it 追加 给 s 

s[p]， 获 取 位 置 p 的 元 素 

在 pickle 中 支持 更 加 优化 的 序列 化 
在 s 中 找到 元 素 e 第 一 次 出 现 的 位 置 
在 位 置 p 之 前 插入 元 素 e 

获取 s 的 迭代 器 

len(s)， 元 素 的 数量 

s*n, ns 的 重复 拼接 

， 就 地 重复 拼接 

n * s， 反 向 拼接 
































s *=n 








删除 最 后 或 者 是 〈 可 选 的 ) 位 于 p 的 元 素 ， 并 返回 它 的 值 





删除 s 中 的 第 一 次 出 现 的 e 
就 地 把 s 的 元 素 倒序 排列 
返回 s 的 倒序 迭代 器 








s[p] = e， 把 元 素 。 放 在 位 置 p， 赫 代 已 经 在 











p 个 位 置 的 元 素 


就 地 对 s 中 的 元 素 进 行 排序 ， 可 选 的 参数 有 键 (key) 和 是 








否 倒序 (reverse) 


操作 ， 但 是 实际 上 切片 操作 比 人 们 所 想象 的 要 强大 很 多 。 


这 一 市 主要 讨 t Re 它们 的 实现 方法 则 会 在 第 
么 做 主要 是 为 了 符合 这 本 书 的 哲学 


定义 类 里 提 到 。 
创建 新 类 。 


2.4.1 





在 切片 和 区 间 操 作 里 不 包含 区 间 范 围 的 最 后 





序 员 都 知道 序列 可 以 用 s[a:b] 的 形式 切片 ， 但 是 关于 切片 ， 我 还 想 说 说 它 





元 组 (tuple) 和 字符 串 (str) 这 类 序列 类 型 都 支持 切片 


10 章 的 一 个 自 











后 一 个 元 素 


一 个 元 素 是 Python 的 风格 ，3 


Python, C 和 其 他 语言 里 以 0 作为 起 始 下 标的 传统 。 这 样 做 带 来 的 好 处 如 下 。 


。 当 只 有 最 后 一 个 位 置信 息 





时 ， 我 们 也 可 以 快速 看 出 切片 和 区 间 里 有 几 个 元 素 : 





: 先 讲 用 法 ， 第 四 部 分 中 再 来 讲 如 何 








这 个 习惯 符合 


range(3) 
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All my_list[:3] 都 返回 3 个 元 素 。 
。 当 起 止 位 置信 息 都 可 见 时 ， 我 们 可 以 快速 计算 出 切片 和 区 间 的 长 度 ， 用 后 一 个 数 减 去 第 
一 个 下 标 (stop-start) 即 可 。 
。 这 样 做 也 让 我 们 可 以 利用 任意 一 个 下 标 来 把 序列 分 割 成 不 重 琶 的 两 部 分 ， 只 要 写成 my_ 
List[:x] 和 my_List[x:] 就 可 以 了 ， 如 下 所 示 。 
>>> l = [10, 20, 30, 40, 50, 60] 
>>> 1[:2] # 在 下 标 2 的 地 方 分 割 
[10, 20] 
>>> 1[2:] 
[30, 40, 50, 60] 
>>> 1[:3] # 在 下 标 3 的 地 方 分 割 
[10, 20, 30] 
>>> 1[3:] 
[40, 50, 60] 

















计算 机 科学 家 Edsger W. Dijkstra 对 这 一 风格 的 解释 应 该 是 最 好 的 ， 详 见 “ 延 伸 阅 读 ” 中 给 
出 的 最 后 一 个 参考 资料 。 


接 下 来 进一步 看 看 Python 解释 器 是 如 何 理 解 切片 操作 的 。 


2.4.2 ”对 对 和 象 进行 切片 


一 个 众所周知 的 秘密 是 ， 我 们 还 可 以 用 s[a:b:c] 的 形式 对 s 在 3 和 b 之 间 以 c 为 间隔 取 
值 。c 的 值 还 可 以 为 负 ， 负 值 意味 着 反 向 取 值 。 下 面 的 3 个 例子 更 直观 些 : 




















>>> s = 'bicycle' 
>>> s[::3] 

"bye! 

>>> s[::-1] 
"elcycib' 

>>> s[i:-2] 
"eccb 


另 一 个 例子 是 在 第 1 章 中 用 deck[12: :13] 的 形式 在 未 洗 过 的 牌 里 把 每 种 花色 的 A 拿 出 来 : 
>>> deck[12::13] 
[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 
Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 
a:b:c 这 种 用 法 只 能 作为 索引 或 者 下 标 用 在 [] 中 来 返回 一 个 切片 对 象 : slice(a, b, c), 
在 10.4.1 节 中 会 讲 到 ， 对 seq[start:stop:step] 进行 求 值 的 时 候 ，Python 会 调用 sea. 
getitem (slice(start，stop，step))。 就 算 你 还 不 会 自 定义 序列 类 型 ， 了 解 一 下 切片 对 
象 也 是 有 好 处 的 。 例 如 你 可 以 给 切片 命名 ， 就 像 电子 表格 软件 里 给 单元 格 区 域 取 名 字 一 样 。 


比如 ， 要 解析 示例 2-11 中 所 示 的 纯 文本 文件 ， 这 时 使 用 有 名 字 的 切片 比 用 硬 编码 的 数字 区 
间 要 方便 得 多 ， 注 意 示例 里 的 for 循环 的 可 读 性 有 多 强 。 


示例 2-11 纯 文 本 文件 形式 的 收据 以 一 行 字符 串 的 形式 被 解析 


>>> invoice = """ 



































x 
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... 1909 Pimoroni PiBrella $17.50 3 $52.50 
... 1489 6mm Tactile Switch x20 $4.95 2 $9.90 
... 1510 Panavise Jr. - PV-201 $28.00 1 $28.00 

. 1601 PiTFT Mini Kit 320x240 $34.95 1 $34.95 


>>> SKU = slice(0, 6) 
>>> DESCRIPTION = slice(6, 40) 
>>> UNIT_PRICE = slice(40, 52) 
>>> QUANTITY = slice(52, 55) 
>>> ITEM_TOTAL = slice(55, None) 
>>> line items = invoice.split('\n')[2:] 
>>> for item in line_items: 
print(item[UNIT_ PRICE], item[DESCRIPTION]) 


$17.50  Pimoroni PiBrella 

$4.95 6mm Tactile Switch x20 
$28.00 Panavise Jr. - PV-201 
$34.95 PiTFT Mini Kit 320x240 


在 10.4 节 还 有 更 多 机 会 来 了 解 切 片 (sLtce) 对 象 。 如 果 从 Python 用 户 的 角度 出 发 ， 切 片 
还 有 个 两 个 额外 的 功能 : 多 维 切 片 和 省 略 表示 法 〈(.…)。 


243 多维 切片 和 省 略 


[] 运算 符 里 还 可 以 使 用 以 逗号 分 开 的 多 个 索引 或 者 是 切片 ， 外 部 库 NumPy 里 就 用 到 了 这 
个 特性 ， 二 维 的 numpy.ndarray 就 可 以 用 a[i，j] 这 种 形式 来 获取 ， 抑 或 是 用 a[m:n，k:1] 
的 方式 来 得 到 二 维 切 片 。 稍 后 的 示例 2-22 会 展示 这 个 用 法 。 要 正确 处 理 这 种 [] 运算 符 的 
话 ， 对 象 的 特殊 方法 _getitemn “和 setitem_ “需要 以 元 组 的 形式 来 接收 ali, jl 中 的 索 
引 。 也 就 是 说 ， 如 果 要 得 到 a[i，j] 的 值 ，Python 会 调用 a._getitem_((i, j))。 


Python 内 置 的 序列 类 型 都 是 一 维 的 ， 因 此 它们 只 支持 单一 的 索引 ， 成 对 出 现 的 索引 是 没有 
用 的 。 
省 略 (ellipsis) 的 正确 书写 方法 是 三 个 英语 句号 (.….)， 而 不 是 Unicdoe 码 位 U+2026 表 
示 的 半 个 省 略 号 (...)。 省 略 在 Python 解析 器 眼 里 是 一 个 符号 ， 而 实际 上 它 是 Ellipsis 对 
象 的 别名 , 而 Ellipsis 对 象 又 是 ellipsis 类 的 单一 实例 。? 它 可 以 当 作 切片 规范 的 一 部 分 ， 
也 可 以 用 在 函数 的 参数 清单 中 ， 比 如 f(a，...，z), 或 a[i:...]。 在 NumPy 中，.… FALE 
多 维 数组 切片 的 快捷 方式 。 如 果 x 是 四 维 数组 ， 那 么 x[i，...] 就 是 x[i，:，:，:] 的 缩 
写 。 如 果 想 了 解 更 多 ， 请 参见 “Tentative NumPy Tutorial” (http://wiki.scipy.org/Tentative 
NumPy_Tutorial) 。 

在 写 这 本 书 的 时 候 ， 我 还 没有 发 现在 Python 的 标准 库 里 有 任何 Ellipsis 或 者 是 多 维 索 引 
的 用 法 。 如 果 你 知道 ， 请 告诉 我 。 这 些 句 法 上 的 特性 主要 是 为 了 支持 用 户 自 定义 类 或 者 扩 
展 ’ 比如 NumPy 就 是 个 例子 。 

除了 用 来 提取 序列 里 的 内 容 ， 切 片 还 可 以 用 来 就 地 修改 可 变 序列 ， 也 就 是 说 修改 的 时 候 不 































































































注 2: 是 的 ， 你 没 看 错 ，ellipsis 是 类 名 ， 全 小 写 ， 而 它 的 内 置 实例 写作 Ellipsis, MLSE bool 是 小 写 ， 
但 是 它 的 两 个 实例 写作 True Fil False 异曲同工 。 
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需要 重新 组 建 序列 。 


2.4.4 给 切片 赋值 


如 果 把 切片 放 在 赋值 语句 的 左边 ， 或 把 它 作为 del 操作 的 对 象 ， 我 们 就 可 以 对 序列 进行 嫁 
接 、 切 除 或 就 地 修改 操作 。 通 过 下 面 这 几 个 例子 ， 你 应 该 就 能 体会 到 这 些 操 作 的 强大 功能 


>>> l = list(range(10)) 

>>> 1 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

>>> 1[2:5] = [20, 30] 

>>> 1 

[0, 1, 20, 30, 5, 6, 7, 8, 9] 

>>> del 1[5:7] 

>>> 1 

[0, 1, 20, 30, 5, 8, 9] 

>>> 1[3::2] = [11, 22] 

>>> l 

[0, 1, 20, 11, 5, 22, 9] 

>>> 1[2:5] = 100 @ 

Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 

TypeError: can only assign an iterable 

>>> 1[2:5] = [100] 

>>> l 

[0, 1, 100, 22, 9] 


O 如 果 赋 值 的 对 象 是 一 个 切片 ， 那 么 赋值 语 名 的 右 侧 必 须 是 个 可 迭代 对 象 。 即 便 只 有 单独 
一 个 值 ， 也 要 把 它 转换 成 可 迭代 的 序列 。 


序列 的 拼接 操作 可 谓 是 众所周知 ， 任 何 一 本 Python 入 门 教材 都 会 介绍 + 和 * 的 用 法 ， 但 是 
在 这 些 用 法 的 背后 还 有 一 些 可 能 被 忽视 的 细节 。 下 面 就 来 看 看 这 两 种 操作 。 


2.5 ”对 序列 使 用 + 和 * 


Python 程序 员 会 默认 序列 是 支持 + 和 * 操作 的 。 通 常 + 号 两 侧 的 序列 由 相同 类 型 的 数据 所 
构成 ， 在 拼接 的 过 程 中 ， 两 个 被 操作 的 序列 都 不 会 被 修改 ，Python 会 新 建 一 个 包含 同样 类 
型 数据 的 序列 来 作为 拼接 的 结果 。 


如 果 想 要 把 一 个 序列 复制 几 份 然后 再 拼接 起 来 ， 更 快捷 的 做 法 是 把 这 个 序列 乘 以 一 个 整 
数 。 同 样 ， es 


>>> l= [1, 2, 3] 

>>> L * 5 

[tp 22.35 ASS 2. 3 25.3, L320 5 1s 2353] 
>>> 5 * 'abcd' 

"abcdabcdabcdabcdabcd' 


+ 和 * 都 遵循 这 个 规律 ， 不 修改 原 有 的 操作 对 象 ， 而 是 构建 一 个 全 新 的 序列 。 
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如 果 在 a * nm 这 个 语句 中 ， 序列 a 里 的 元 素 是 对 其 他 可 变 对 象 的 引用 的 话 ， 
你 就 需要 格外 注意 了 ， 因 为 这 个 式 子 的 结果 可 能 会 出 平 意料 。 比 如 ， 你 想 用 
my_list = [[]] * 3 来 初始 化 一 个 由 列表 组 成 的 列表 ， 但 是 你 得 到 的 列表 里 
包含 的 3 个 元 素 其 实 是 3 个 引用 ， 而 且 这 3 个 引用 指向 的 都 是 同一 个 列表 。 
这 可 能 不 是 你 想 要 的 效果 。 





























下 面 来 看 看 如 何 用 * 来 初始 化 一 个 由 列表 组 成 的 列表 。 
建立 由 列表 组 成 的 列表 


有 了 时 我 们 会 需要 初始 化 一 个 余 套 着 几 个 列表 的 列表 ， 壁 如 一 个 列表 可 能 需要 用 来 存放 不 同 
的 学 生 名 单 , 或 者 是 一 个 井 字 游 戏 板 ”上 的 一 行 方块 。 想 要 达成 这 些 目 的 , 最 好 的 选择 是 使 
用 列表 推导 ， 见 示例 2-12。 


示例 2-12 一 个 包含 3 个 列表 的 列表 ， 赂 人 套 的 3 个 列表 各 自 有 3 个 元 素来 代表 井 字 游 戏 











的 一 行 方块 
>>> board = [['_'] * 3 for i in range(3)] © 
>>> board 


uy wee S 5 Noy rory "3 Ls aes "JI 
>>> board[1][2] = 'X' @ 
>>> board 
[['_', Ys miiy bs mo % 'X'], [tas Togs 省] 
O 建立 一 个 包含 3 个 列表 的 列表 ， 被 包含 的 3 个 列表 各 自 有 3 个 元 素 。 打 印 出 这 个 租 套 列表 。 
O 把 第 1 行 第 2 列 的 元 素 标 记 为 X， 再 打印 出 这 个 列表 。 


示例 2-13 展示 了 另 一 个 方法 ， 这 个 方法 看 上 去 是 个 诱 人 的 捷径 ， 但 实际 上 它 是 错 的 。 


示例 2-13 含有 3 个 指向 同一 对 象 的 引用 的 列表 是 毫 无 用 处 的 
>>> weird board = [['_'] * 3] * 3 @ 
>>> weird_board 
由 
>>> weird_board[1][2] = '0' @ 
>>> weird_board 
[['_', '_', '0'], ['L's '_', '0"'], ['L', '_', '0'7] 
O 外 面 的 列表 其 实 包含 3 个 指向 同一 个 列表 的 引用 。 当 我 们 不 做 修改 的 时 候 ， 看 起 来 都 
O 一 旦 我 们 试图 标记 第 1 行 第 2 列 的 元 素 ， 就 立马 暴露 了 列表 内 的 3 个 引用 指向 同一 个 对 
象 的 事实 。 
示例 2-13 犯 的 错误 本 质 上 跟 下 面 的 代码 犯 的 错误 一 样 : 
row=['_'] * 3 
board = [] 
for i in range(3): 




















注 3: 又 称 过 三 关 ， 是 一 种 在 3 x 3 的 方块 矩阵 上 进行 的 游戏 。 一 一 译 者 注 
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board.append(row) @ 
O 追加 同一 个 行 对 象 (row) 3 次 到 游戏 板 (board), 
相反 ， 示 例 2-12 中 的 方法 等 同 于 这 样 做 : 


>>> board = [] 

>>> for i in range(3): 
row=['_'] * 3 #0 
board. append(row) 


ons board 
[gS T A 
>>> board[2][0] = 'X' 
>>> board #@ 
Ds. ote Se ed I a 
O 每 次 迭代 中 都 新 建 了 一 个 列表 ， 作 为 新 的 一 行 (row) 追加 到 游戏 板 (board), 
O 正如 我 们 所 期 待 的 ， 只 有 第 2 行 的 元 素 被 修改 。 














如 果 你 觉得 这 一 节 里 所 说 的 问题 及 其 对 应 的 解决 方法 都 有 点 云 里 筋 里 ， 没 关 
系 。 第 8 章 里 我 们 会 详细 说 明 引 用 和 可 变 对 象 背 后 的 原理 和 陷阱 。 








我 们 一 直 在 说 + 和 *， 但 是 别 忘 了 我 们 还 有 += 和 *=。 随 着 目标 序列 的 可 变性 的 变化 ， 这 个 
两 个 运算 符 的 结果 也 大 相 径 庭 。 下 一 市 就 来 详细 讨论 。 


2.6 序列 的 增 量 赋值 

增 量 赋值 运算 符 += 和 *= 的 表现 取决 于 它们 的 第 一 个 操作 对 象 。 简 单 起 见 ， 我 们 把 讨论 集 
中 在 增 量 加 法 (+=) 上 ， 但 是 这 些 概念 对 *= 和 其 他 增 量 运算 符 来 说 都 是 一 样 的 。 

+= 背后 的 特殊 方法 是 _iadd (用 于 “就 地 加 法 ”)。 但 是 如 果 一 个 类 没有 实现 这 个 方法 的 
W, Python 会 退 一 步调 用 __add__。 考 虑 下 面 这 个 简单 的 表达 式 .: 


>>> a += b 


如 果 a 实 现 了 _iadd_ 方 法， 就 会 调用 这 个 方法 。 同 时 对 可 变 序列 (例如 List、 
bytearray 和 array.array) 来 说 ，a 会 就 地 改动 ， 就 像 调用 了 a.extend(b) 一 样 。 但 是 如 
果 a 没 有 实现 iad 的话，a t= b 这 个 表达 式 的 效果 就 变 得 跟 a = a + b 一 样 了 : 首先 
计算 a + b， 得 到 一 个 新 的 对 象 ， 然 后 赋值 给 a。 也 就 是 说 ， 在 这 个 表达 式 中 ， 变 量 名 会 不 
会 被 关联 到 新 的 对 象 ， 完 全 取决 于 这 个 类 型 有 没有 实现 _iadd__ 这 个 方法 。 

总 体 来 讲 ， 可 变 序 列 一 般 都 实现 了 __iadd_ 方 法， 因此 += 是 就 地 加 法 。 而 不 可 变 序列 根 
本 就 不 支持 这 个 操作 ， 对 这 个 方法 的 实现 也 就 无 从 谈 起 。 

上 面 所 说 的 这 些 关 于 += 的 概念 也 适用 于 *=， 不 同 的 是 ， 后 者 相对 应 的 是 imule XF 
__iadd _ 和 __imul ,第 13 章 中 会 再 次 提 到 。 
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接 下 来 有 个 小 例子 ， 展 示 的 是 *= 在 可 变 和 不 可 变 序列 上 的 作用 : 


>53 l=- [h 2; 3] 
>>> id(1) 
4311953800 @ 
>>> l *= 2 

>>> l 

[1 253s 1325. 3) 
>>> id(1) 
4311953800 @ 
>>> t = (1, 2, 3) 
>>> id(t) 
4312681568 © 
>>> 七 *= 2 

>>> id(t) 
4301348296 @ 


O 刚 开 始 时 列表 的 ID, 
O 运用 增 量 乘法 后 ， 列 表 的 ID 没 变 ， 新 元 素 追 加 到 列表 上 。 


© 元 组 最 开始 的 IJD。 
@ 运用 增 量 乘 法 后 ， 新 的 元 组 被 创建 。 


对 不 可 变 序 列 进行 重复 拼接 操作 的 话 ， 效 率 会 很 低 ， 因 为 每 次 都 有 一 个 新 对 象 ， 而 解释 器 
需要 把 原来 对 象 中 的 元 素 先 复制 到 新 的 对 象 里 ， 然 后 再 追加 新 的 元 素 。” 
我 们 已 经 认识 了 += 的 一 般 用 法 ， 下 面 来 看 一 个 有 意思 的 边界 情况 。 这 个 例子 可 以 说 是 突 
出 展示 了 “不 可 变性 ”对 于 元 组 来 说 到 底 意味 着 什么 。 


一 个 关于 += 的 谜 是 

读 完 下 面 的 代码 ， 然 后 回答 这 个 问题 : 示例 2-14 中 的 两 个 表达 式 到 底 会 产生 什么 结果 ? 5 
回答 之 前 不 要 用 控制 台 去 运行 这 两 个 式 子 。 

示例 2-14 “一 个 谜 题 


>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 


到 底 会 发 生 下 面 4 种 情况 中 的 哪 一 种 
at 变 成 (1，2，[30，40，50，60])。 
b. 因为 tuple 不 支持 对 它 的 元 素 赋值 ， 所 以 会 抛 出 TypeError 异常 。 
c. 以 上 两 个 都 不 是 。 
d. a 和 b 都 是 对 的 。 


刚 看 到 这 个 问题 的 时 候 ， 异 常 确 定 地 选择 了 b， 但 其 实 答案 是 d， 也 就 是 说 a Alb 都 是 


















































~ 























注 4: str 是 一 个 例外 ， 因 为 对 字符 串 做 += 实在 是 太 普遍 了 ， 所 以 CPython 对 它 做 了 优化 。 为 str 初始 化 内 
存 的 时 候 ， 程 序 会 为 它 留 出 额外 的 可 扩展 空间 ， 因 此 进行 增 量 操作 的 时 候 ， 并 不 会 涉及 复制 原 有 字符 
串 到 新 位 置 这 类 操作 。 

注 5: 感谢 Leonardo Rochael 在 2013 年 的 Python 巴西 会 议 上 提 到 这 个 谜 题 。 























对 的 ! 示例 2-15 是 运行 这 段 代 码 得 到 的 结果 ， 用 的 Python 版 本 是 3.4， 但 是 在 2.7 中 结果 
也 一 样 。 


示例 2-15 没 人 料 到 的 结果 : t[2] 被 改动 了 ,但 是 也 有 异常 抛 出 
>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
TypeError: 'tuple' object does not support item assignment 
>>> t 


(1, 2, [30, 40, 50, 60]) 





Python Tutor (http://www.pythontutor.com) 是 一 个 对 Python 运行 原理 进行 可 视 化 分 析 的 工 
具 。 图 2-3 里 是 两 张 截图 ， 分 别 代表 示例 2-15 中 t 的 初始 和 最 终 状 态 。 




































































1 t = (1, 2, [30, 40]) Frames Objects 
—2 t[2] += [50, 60] Global frame tuple list 
0 1 2 0 1 
Edit code el a | 2 | 77] 30 | 40 
0 
{ <<First | | <Back | Step 2of 2 | Forward> | | Last>> 
line that has just executed 
= next line to execute 
t = (1, 2, [30, 40]) Frames Oplects 
—>2 t[2] += [50, 60] Global frame tuple list 
|) j p 0 1 2 3 
Edit code t | ie lad o | 40 | 50 





























<<First | | <Back | Program terminated | Forward > Last >> 


TypeError: 'tuple' object does not support item assignment 


line that has just executed 
=> next line to execute 


图 2-3: TAMACZRHAMGURAKA (图 表 由 Python Tutor 网 站 生成 ) 


下 面 来 看 看 示例 2-16 中 Python 为 表达 式 s[a] += b 生成 的 字 市 码 ， 可 能 这 个 现象 背后 的 
原因 会 变 得 清晰 起 来 。 


示例 2-16 sla] += b 背后 的 字 节 码 


>>> dis.dis('s[a] += b') 























1 0 LOAD_NAME o(s) 
3 LOAD_NAME 1(a) 
6 DUP_TOP_TWO 
7 BINARY_SUBSCR 0 
8 LOAD_NAME 2(b) 


11 INPLACE_ADD 
12 ROT_THREE 

13 STORE_SUBSCR © 
14 LOAD_CONST 0(None) 

17 RETURN_VALUE 








注 6: 有 读者 提出 ， 如 果 写 成 t[2].extend([50，69]) 就 能 避免 这 个 异常 。 确 实 是 这 样 ， 但 这 个 例子 是 为 了 
展示 这 种 奇怪 的 现象 而 专门 写 的 。 














— 
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@ 将 s[a] 的 值 存 和 人 T0s (Top Of Stack， 栈 的 顶端 ) 。 

@ 计算 Tos += b。 这 一 步 能 够 完成 ， 是 因为 TOS 指向 的 是 一 个 可 变 对 象 〈 也 就 是 示例 2-15 
里 的 列表 )。 

© sla] = TOS 赋值 。 这 一 步 失 败 ， 是 因为 s 是 不 可 变 的 元 组 (示例 2-15 中 的 元 组 t)。 

这 其 实 是 个 非常 罕见 的 边界 情况 ,在 15 年 的 Python 生涯 中 ， 我 还 没 见 过 谁 在 这 个 地 方 吃 

ws. 

至 此 我 得 到 了 3 个 教训 。 


。 不 要 把 可 变 对 象 放 在 元 组 里 面 。 
。 增 量 赋值 不 是 一 个 原子 操作 。 我 们 刚才 也 看 到 了 , 它 虽 然 抛 出 了 异常 ,但 还 是 完成 了 操作 。 
。 查看 Python 的 字 节 码 并 不 难 ， 而 且 它 对 我 们 了 解 代 码 背 后 的 运行 机 制 很 有 帮助 。 


在 见证 了 + 和 * 的 微妙 之 处 后 ， 我 们 把 话题 转移 到 序列 类 型 的 另 一 个 重要 部 分 上 : 排序 。 


2.7 List.sort 方 法 和 内 置 函 数 sorted 


List.sort 方法 会 就 地 排序 列表 ， 也 就 是 说 不 会 把 原 列表 复制 一 份 。 这 也 是 这 个 方法 的 返 
回 值 是 None 的 原因 ， 提 醒 你 本 方法 不 会 新 建 一 个 列表 。 在 这 种 情况 下 返回 None 其 实 是 
Python 的 一 个 惯例 ， 如 果 一 个 函数 或 者 方法 对 对 象 进行 的 是 就 地 改动 ， 那 它 就 应 该 返回 
None， 好 让 调用 者 知道 传 入 的 参数 发 生 了 变动 ， 而 且 并 未 产生 新 的 对 象 。 例 如 ，randonm. 
shuffle 函数 也 遵守 了 这 个 惯例 。 


用 返回 None 来 表示 就 地 改动 这 个 惯例 有 个 弊端 ， 那 就 是 调用 者 无 法 将 其 串 
联 起 来 。 而 返回 一 个 新 对 象 的 方法 〈 比 如 说 str 里 的 所 有 方法 ) 则 正好 相 
KR, 它们 可 以 串联 起 来 调用 ， 从 而 形成 连贯 接口 (fluent interface)。 详 情 
参见 维基 百科 中 有 关连 贯 接口 的 讨论 (https://en.wikipedia.org/wiki/Fluent_ 


interface) 。 





















































与 List.sort 相反 的 是 内 置 国 数 sorted， 它 会 新 建 一 个 列表 作为 返回 值 。 这 个 方法 可 以 接 
受 任何 形式 的 可 迭代 对 象 作为 参数 ， 其 至 包括 不 可 变 序 列 或 生成 器 〈 见 第 14 章 ) 。 而 不 管 
sorted 接受 的 是 怎样 的 参数 ， 它 最 后 都 会 返回 一 个 列表 。 
不 管 是 List.sort 方法 还 是 sorted 国 数 ， 都 有 两 个 可 选 的 关键 字 参 数 。 
reverse 
如 果 被 设 定 为 True， 被 排序 的 序列 里 的 元 素 会 以 降序 输出 (也 就 是 说 把 最 大 值 当 作 最 
小 值 来 排序 )。 这 个 参数 的 默认 值 是 False。 
key 
一 个 只 有 一 个 参数 的 函数 ， 这 个 函数 会 被 用 在 序列 里 的 每 一 个 元 素 上 ， 所 产生 的 结果 
将 是 排序 算法 依赖 的 对 比 关键 字 。 比 如 说 ， 在 对 一 些 字符 串 排序 时 ， 可 以 用 key=str. 
lower 来 实现 忽略 大 小 写 的 排序 ， 或 者 是 用 key=len 进行 基于 字符 串 长 度 的 排序 。 这 个 
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参数 的 默认 值 是 恒 等 国 数 (identity function) ， 也 就 是 默认 用 元 素 自 己 的 值 来 排序 。 


可 选 参数 key ETMENE 数 mn() 和 max() 中 起 作用 。 另 外 ， 还 有 些 标 准 
库 里 的 函数 也 接受 这 个 参数 ， 像 itertooLs.groupby() 和 heapq.nlargest() 等 。 














下 面 通过 儿 个 小 例子 来 看 看 这 两 个 函数 和 它们 的 关键 字 参 数 : 


>>> fruits = ['grape', 'raspberry', 'apple', 'banana'] 
>>> sorted(fruits) 

['apple', 'banana', 'grape', 'raspberry'] @ 
>>> fruits 

['grape', 'raspberry', ‘apple', 'banana'] @ 
>>> sorted(fruits, reverse=True) 
['raspberry', 'grape', 'banana', 'apple'] © 
>>> sorted(fruits, key=len) 

['grape', 'apple', 'banana', 'raspberry'] @ 
>>> sorted(fruits, key=len, reverse=True) 
['raspberry', 'banana', 'grape', 'apple'] © 
>>> fruits 

['grape', 'raspberry', ‘apple', 'banana'] © 
>>> fruits.sort() (7) 
>>> fruits 

['apple', 'banana', 'grape', 'raspberry'] © 








O 新 建 了 一 个 按照 字母 排序 的 字符 串 列表 。 

O 原 列表 并 没有 变化 。 

© 按照 字母 降序 排序 。 

O 新 建 一 个 按照 长 度 排序 的 字符 串 列表 。 因 为 这 个 排序 算法 是 稳定 的 ，grape 和 apple 的 
长 度 都 是 5， 它 们 的 相对 位 置 跟 在 原来 的 列表 里 是 一 样 的 。 

O 按照 长 度 降 序 排序 的 结果 。 结 果 并 不 是 上 面 那 个 结果 的 完全 翻转 ， 因 为 用 到 的 排序 算法 
是 稳定 的 ， 也 就 是 说 在 长 度 一 样 时 ，grape 和 apple 的 相对 位 置 不 会 改变 。 

O 直到 这 一 步 ， 原 列表 fruits 都 没有 任何 变化 。 

O 对 原 列表 就 地 排序 ， 返 回 值 None 会 被 控制 台 忽略 。 

© 此 时 fruits 本 身 被 排序 。 


已 排序 的 序 ee 了 快速 搜索 ， 而 标准 库 的 bisect 模块 给 我 们 提供 了 二 分 查找 算法 。 
下 一 市 会 详细 讲 这 个 函数 ， 顺 便 还 会 看 看 bisect.insort 如 何 让 已 排序 的 序列 保持 有 序 。 


2.8 ”用 bisect 来 管理 已 排序 的 序列 


bisect 模块 包含 两 个 主要 函数 ，bisect 和 insort， 两 个 函数 都 利用 二 分 查找 算法 来 在 有 序 
序列 中 查找 或 插入 元 素 。 















































注 7: 这 几 个 例子 还 说 明了 Python 的 排序 算法 一 一 Timsort 一 一 是 稳定 的 ， 意 思 是 就 算 两 个 元 素 比 不 出 大 小 ， 
在 每 次 排序 的 结果 里 它们 的 相对 位 置 是 固定 的 。Timsort 在 本 章 结尾 的 “杂谈 ”里 会 有 进一步 的 讨论 。 
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2.8.1 


用 bisect 来 搜索 


bisect(haystack, needle) 在 haystack (FHH) 里 搜索 needle ( 针 ) 的 位 置 ， 该 位 置 满 
足 的 条 件 是 ， 把 needle 插入 这 个 位 置 之 后 ，haystack 还 能 保持 升序 。 也 就 是 在 说 这 个 函 


数 返 回 





的 位 置 前 面 的 值 ， 都 小 于 或 等 于 needle 的 值 。 其 中 haystack 必须 是 一 个 有 序 的 序 





列 。 你 可 以 先 用 bisect(haystack, needle) 查找 位 置 tndex， 再 用 haystack.insert(index, 
needle) 来 插入 新 值 。 但 你 也 可 用 insort 来 一 步 到 位 ， 并 且 后 者 的 速度 更 快 一 些 。 




















Python 的 高 产 贡献 者 Raymond Hettinger 写 了 一 个 排序 集合 模块 (http://code. 
activestate.com/recipes/577197-sortedcollection/), ， 模 块 里 集成 了 bisect 功能 ， 
但 是 比 独立 的 bisect 更 易 用 。 





示例 2-17 利用 几 个 精心 挑选 的 needle， 向 我 们 展示 了 bisect 返回 的 不 同位 置 值 。 这 段 代 
码 的 输出 结果 显示 在 图 2-4 中 。 


示例 2-17 在 有 序 序 列 中 用 bisect 查找 某 个 元 素 的 插入 位 置 


import bisect 
import sys 





HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30] 
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31] 


ROW_FMT = '{0:2d} @ {1:2d}  {2}{0:<2d}' 


def demo(bisect_fn): 


if 


__Mame__ == '_ main_': 


for needle in reversed(NEEDLES): 
position = bisect_fn(HAYSTACK, needle) @ 
offset = position * / |' @ 
print(ROW_FMT.format(needle, position, offset)) © 


if sys.argv[-1] == 'left': @ 
bisect_fn = bisect.bisect_left 
else: 
bisect_fn = bisect.bisect 


print('DEMO:', bisect_fn.__name_) @ 
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK) ) 
demo(bisect_fn) 


O 用 特定 的 bisect 函数 来 计算 元 素 应 该 出 现 的 位 置 。 
@ 利用 该 位 置 来 算出 需要 几 个 分 隔 符 号 。 

O 把 元 素 和 其 应 该 出 现 的 位 置 打 印 出 来 。 

O 根据 命令 上 最 后 一 个 参数 来 选用 bisect 国 数 。 

O 把 选 定 的 函数 在 抬头 打印 出 来 。 














@2-array-seq/ $ python3 bisect_demo.py 


DEMO: bisect 
haystack -> 1 


上 


Orrwunopr 


4 5 6 
| 1 1 
Me hi. I 
boy ed 
koh 
oe EE | 
| 1 1 
I ele 
1 | 


5 


DDD 
PN 


0 








2-4; 用 bisect 函数 时 示例 2-17 的 输出 。 每 一 行 以 needle @ position (元 素 及 其 应 该 插入 的 位 置 ) 
开始 ， 然 后 展示 了 该 元 素 在 原 序列 中 的 物理 位 置 





bisect 的 表现 可 以 从 两 个 方面 来 调教 。 
首先 可 以 用 它 的 两 个 可 选 参数 lo 和 hi 























的 默认 值 是 序列 的 长 度 ， 即 Len() 作用 于 该 序列 的 返回 值 。 


其 次 ，bisect 函数 其 实 是 bisect_right 函数 的 别名 ,后 者 还 有 个 姊妹 函数 ML bisect_left。 
它们 的 区 别 在 于 ，bisect_left 返回 的 插入 位 置 是 原 序列 中 跟 被 插入 元 素 相 等 的 元 素 的 位 置 ， 











也 就 是 新 元 素 会 被 放置 于 它 相 等 的 元 素 的 前 下 














来 缩小 搜寻 的 范围 。to 的 默认 值 是 9，hi 


j, m bisect_right 返回 的 则 是 跟 它 相 等 的 元 素 


之 后 的 位 置 。 这 个 细微 的 差别 可 能 对 于 整数 序列 来 讲 没 什么 用 ， 但 是 对 于 那些 值 相等 但 是 形 
式 不 同 的 数据 类 型 来 讲 ， 结 果 就 不 一 样 了 。 比 如 说 虽然 1 == 1.0 的 返回 值 是 True,，1 和 1.0 
其 实 是 两 个 不 同 的 元 素 。 图 2-5 显示 的 是 用 bisect_left 来 运行 上 述 示例 的 结果 。 











DEMO: bisect_left 
haystack -> 1 4 5 6 
@ 14 | [s | 
| | 
| | 
| | 
A} ot) 
tJ) 
| | 


| 
| 
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| 
| 
| 
| 8 
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@2-array-seq/ $ python3 bisect_demo.py left 


5 20 21 
I tol 
oe | 
| | 
| | 
| | 








2-5: 用 bisect_left 运行 示例 2-17 得 到 的 结果 (IRS 2-4 对 比 可 以 发 现 , 值 1、8、23、29 和 30 
的 插入 位 置 变 成 了 原 序 列 中 这 些 值 的 前 面 ) 
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bisect 可 以 用 来 建立 一 个 用 数字 作为 索引 的 查询 表格 ,比如 说 把 分 数 和 成 绩 * 对 应 起 来 , 见 
示例 2-18。 


示例 2-18 根据 一 个 分 数 ， 找 到 它 所 对 应 的 成 绩 
>>> def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'): 
i = bisect.bisect(breakpoints, score) 
return grades[i] 


>>> > Larade( score) for score in [33, 99, 77, 70, 89, 90, 100]] 
['F', ‘A’, 'C', 'C', 'B', 'A', 'A'] 


示例 2-18 里 的 代码 来 自 bisect 模块 的 文档 (https://docs.python.org/3/library/bisect.html) 。 
文档 里 列举 了 一 些 利 用 bisect 的 函数 ， 它 们 可 以 在 很 长 的 有 序 序列 中 作为 index 的 替代 ， 
用 来 更 快 地 查找 一 个 元 素 的 位 置 。 


这 些 函 数 不 但 可 以 用 于 查找 ， 还 可 以 用 来 向 序列 中 插入 新 元 素 ， 下 面 就 来 看 看 它们 的 用 法 。 


2.8.2 用 bisect.insort 插 入 新 元 素 

排序 很 耗 时 ， 因 此 在 得 到 一 个 有 序 序列 之 后 ， 我 们 最 好 能 够 保持 它 的 有 序 。bisect.insort 
就 是 为 了 这 个 而 存在 的 。 

insort(seq, item) 把 变量 item 插入 到 序列 seq 中 ， 并 能 保持 seq 的 升序 顺序 。 详 见 示例 
2-19 和 它 在 图 2-6 里 的 输出 。 


示例 2-19 insort 可 以 保持 有 序 序列 的 顺序 
import bisect 
import random 














SIZE=7 
random. seed(1729) 


my_list = [] 

for i in range(SIZE): 
new_item = random.randrange(SIZE*2) 
bisect.insort(my_list, new_item) 
print('%2d ->' % new_item, my_list) 





@2-array-seq/ $ python3 bisect_insort.py 
10 -> [10] 

0 -> (0, 10] 

6 -> [0, 6, 10] 

8 -> [0, 6, 8, 10] 

7 -> [0, 6, 7, 8, 10] 

2 -> [0, 2, 6, 7, 8, 10] 

10 -> [@, 2, 6, 7, 8, 10, 10] 








2-6: 示例 2-19 的 输出 











注 8: 成 绩 指 的 是 在 美国 大 学 中 普遍 使 用 的 A~F 字母 成 绩 ，A 表示 优秀 ，F 表示 不 及 格 。 一 一 译 者 注 
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insort 跟 bisect 一 样 ， 有 Lo 和 hi 两 个 可 选 参数 用 来 控制 查找 的 范围 。 它 也 有 个 变 体 叫 
insort_Left， 这 个 变 体 在 背后 用 的 是 bisect_left, 

目前 所 提 到 的 内 容 都 不 仅仅 是 对 列表 或 者 元 组 有 效 ， 还 可 以 应 用 于 几乎 所 有 的 序列 类 型 
上 。 有 时 候 因 为 列表 实在 是 太 方 便 了 ， 所 以 Python 程序 员 可 能 会 过 度 使 用 它 ， 反 正 我 知道 
我 犯 过 这 个 毛病 。 而 如 果 你 只 需要 处 理 数字 列表 的 话 ， 数 组 可 能 是 个 更 好 的 选择 。 下 面 就 
来 讨论 一 些 可 以 禁 换 列表 的 数据 结构 。 


2.9 当 列 表 不 是 首选 时 


虽然 列表 既 灵 活 又 简单 ， 但 面 对 各 类 需求 时 ， 我 们 可 能 会 有 更 好 的 选择 。 比 如 ， 要 存放 
1000 万 个 浮 点 数 的 话 ， 数 组 (array) 的 效率 要 高 得 多 ， 因 为 数组 在 背后 存 的 并 不 是 Float 
对 象 ， 而 是 数字 的 机 器 翻译 ， 也 就 是 字 节 表述 。 这 一 点 就 跟 C 语言 中 的 数组 一 样 。 再 比如 
说 ， 如 果 需 要 频繁 对 序列 做 先进 先 出 的 操作 ，deque 〈 双 端 队列 ) 的 速度 应 该 会 更 快 。 

如 果 在 你 的 代码 里 ， 包 含 操作 (比如 检查 一 个 元 素 是 否 出 现在 一 个 集合 中 ) 

的 频率 很 高 ， 用 set (集合 ) 会 更 合适 。set 专 为 检查 元 素 是 否 存 在 做 过 优 

化 。 但 是 它 并 不 是 序列 ， 因 为 set 是 无 序 的。 第 3 章 会 详细 讨论 它 。 
































本 章 余下 的 内 容 都 是 关于 在 某 些 情况 下 可 以 替换 列表 的 数据 类 型 的 ， 让 我 们 从 数组 开始 。 


2.9.1 数组 


如 果 我 们 需要 一 个 只 包含 数字 的 列表 ， 那 么 array.array 比 list 更 高 效 。 数 组 支持 所 有 跟 
可 变 序列 有 关 的 操作 ， 包 括 .pop、.insert 和 .extend。 另 外 ， 数 组 还 提供 从 文件 读 取 和 存 
入 文件 的 更 快 的 方法 ， 如 .frombytes 和 .tofile, 


Python 数组 跟 C 语言 数组 一 样 精简 。 创 建 数组 需要 一 个 类 型 码 ， 这 个 类 型 码 用 来 表示 在 
底层 的 C 语 言 应 该 存放 怎样 的 数据 类 型 。 比 如 b 类 型 码 代 表 的 是 有 符号 的 字符 (signed 
char)， 因 此 array('b') 创建 出 的 数组 就 只 能 存放 一 个 字 节 大 小 的 整数 ， 范 围 从 -128 到 
127， 这 样 在 序列 很 大 的 时 候 ， 我 们 能 节省 很 多 空间 。 而 且 Python 不 会 允许 你 在 数组 里 存 
放 除 指定 类 型 之 外 的 数据 。 


示例 2-20 展示 了 从 创建 一 个 有 1000 万 个 随机 浮 点 数 的 数组 开始 ， 到 如 何 把 这 个 数组 存放 
到 文件 里 ， 再 到 如 何 从 文件 读 取 这 个 数组 。 


示例 2-20 一 个 浮 点 型 数组 的 创建 、 存 入 文件 和 从 文件 读 取 的 过 程 
>>> from array import array @ 
>>> from random import random 
>>> floats = array('d', (random() for i in range(10**7))) @ 
>>> floats[-1] © 
0.07802343889111107 
>>> fp = open('floats.bin', 'wb') 
>>> floats.tofile(fp) @ 
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>>> fp.close() 

>>> floats2 = array('d') © 

>>> fp = open('floats.bin', 'rb') 
>>> floats2.fromfile(fp, 10**7) @ 
>>> fp.close() 

>>> floats2[-1] @ 
0.07802343889111107 

>>> floats2 == floats 日 

True 


O 引入 array 类 型 。 

O 利用 一 个 可 迭代 对 象 来 建立 一 个 双 精 度 浮 点 数组 (类 型 码 是 'd' )， 这 里 我 们 用 的 可 迭 
代 对 象 是 一 个 生成 器 表达 式 。 

O 查看 数组 的 最 后 一 个 元 素 。 

O 把 数组 存 入 一 个 二 进 制 文件 里 。 

O 新 建 一 个 双 精 度 浮 点 空 数组 。 

@ 把 1000 万 个 浮 点 数 从 二 进 制 文件 里 读 取出 来 。 

O 查看 新 数组 的 最 后 一 个 元 素 。 

O 检查 两 个 数组 的 内 容 是 不 是 完全 一 样 。 


从 上 面 的 代码 我 们 能 得 出 结论 ，array.tofile 和 array.fromfile 用 起 来 很 简单 。 把 这 段 代 
码 跑 一 跑 ， 你 还 会 发 现 它 的 速度 也 很 快 。 一 个 小 试验 告诉 我 ， 用 array.fromfile 从 一 个 二 
进 制 文件 里 读 出 1000 万 个 双 精 度 浮 点 数 只 需要 0.1 秒 ， 这 比 从 文本 文件 里 读 取 的 速度 要 快 
60 倍 ， 因 为 后 者 会 使 用 内 置 的 float 方法 把 每 一 行文 字 转 换 成 浮 点 数 。 另 外 ， 使 用 array. 
tofile 写 和 人 到 二 进 制 文件 ， 比 以 每 行 一 个 浮 点 数 的 方式 把 所 有 数字 写 人 到 文本 文件 要 快 7 
e BAN, 1000 万 个 这 样 的 数 在 二 进 制 文件 里 只 占用 80 000 000 个 字 节 (每 个 浮 点 数 占 用 
8 个 字 节 ， 不 需要 任何 额外 空间 ) ， 如 果 是 文本 文件 的 话 ， 我 们 需要 181 515 739 NF., 
































另外 一 个 快速 序列 化 数字 类 型 的 方法 是 使 用 pickle (https://docs.python.org/3/ 
library/pickle.html) 模块 。pickle.dump 处 理 浮 点 数组 的 速度 几乎 跟 array. 
tofile 一 样 快 。 不 过 前 者 可 以 处 理 几 乎 所 有 的 内 置 数 字 类 型 ， 包 含 复数 、 埠 
套 集 合 ， 甚 至 用 户 自 定 义 的 类 。 前 提 是 这 些 类 没有 什么 特别 复杂 的 实现 。 








还 有 一 些 特 殊 的 数字 数组 ， 用 来 表示 二 进 制 数据 ， 比 如 光栅 图 像 。 里 面 涉及 的 bytes 和 
bytearry 类 型 会 在 第 4 章 提 及 。 


表 2-2 对 数组 和 列表 的 功能 做 了 一 些 总 结 。 
表 2-2: 列表 和 数组 的 属性 和 方法 (不 包含 过 期 的 数组 方法 以 及 那些 由 对 象 实现 的 方法 ) 

















列表 ”数组 
s.__add__(s2) 。 。 s + s2 ， 拼 接 
s.__iadd__(s2) 。 。 s += s2 ， 就 地 拼接 
s.append(e) 。 。 在 尾部 添加 一 个 元 素 
s.byteswap 。 翻转 数组 内 每 个 元 素 的 字 节 序列 ， 转 换 字 节 序 
s.clear() 。 删除 所 有 元 素 
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列表 ”数组 

s.__contains_ (e) e 。 s 是 否 含 有 e 

s.copy() 。 对 列表 小 复制 

s._copy_() 。 对 copy. copy 的 支持 

s.count(e) 。 。 s H e 出 现 的 次 数 

s.__deepcopy__() 。 对 copy.deepcopy 的 支持 

s.__delitem__(p) e . 删除 位 置 p 的 元 素 

s.extend(it) 。 。 将 可 迭代 对 象 it 里 的 元 素 添 加 到 尾部 

s.frombytes(b) 。 将 压缩 成 机 器 值 的 字 节 序列 读 出 来 添加 到 尾部 

s.fromfile(f, n) 。 将 二 进 制 文件 f 内 含有 机 器 值 读 出 来 添加 到 尾部 ， 最 多 添加 n 项 

s.fromlist(1) 。 将 列表 里 的 元 素 添加 到 尾部 ， 如 果 其 中 任何 一 个 元 素 导 致 了 
TypeError 异常 ， 那 么 所 有 的 添加 都 会 取消 

s. getitem (p) . 。 sip], ERME p 的 元 素 

s.index(e) 。 。 找到 e 在 序列 中 第 一 次 出 现 的 位 置 

s.insert(p, e) . ° 在 位 于 p 的 元 素 之 前 插入 元 素 e 

s.itemsize 。 数组 中 每 个 元 素 的 长 度 是 几 个 字 节 

s. iter_() 。 。 返回 迭代 器 

s.__len_() . 。 Len(s)， 序 列 的 长 度 

s.__mul__(n) e . s * n， 重 复 拼接 

s.__imul__(n) e ° s *= n ， 就 地 重复 拼接 

s.__rmul__(n) . ° nx s， 反 向 重复 拼接 ” 

s.pop([p]) 。 。 删除 位 于 p 的 值 并 返回 这 个 值 ，p 的 默认 值 是 最 后 一 个 元 素 的 
位 置 

s.remove(e) 。 。 删除 序列 里 第 一 次 出 现 的 e 元 素 

s.reverse() 。 。 就 地 调转 序列 中 元 素 的 位 置 

s.__reversed__() 。 返回 一 个 从 尾部 开始 扫描 元 素 的 迭代 器 

s.__setitem_(p, e) . . s[p] = e， 把 位 于 p 位 置 的 元 素 替 换 成 e 

s.sort([key], [revers]) œ 就 地 排序 序列 ， 可 选 参数 有 key 和 reverse 

s.tobytes() 7 把 所 有 元 素 的 机 器 值 用 bytes 对 象 的 形式 返回 

s.tofile(f) s 把 所 有 元 素 以 机 器 值 的 形式 写 入 一 个 文件 

s.tolist() a 把 数组 转换 成 列表 ， 列 表 里 的 元 素 类 型 是 数字 对 象 

s.typecode 。 返回 只 有 一 个 字符 的 字符 串 ， 代 表 数 组 元 素 在 C 语言 中 的 类 型 











* 第 13 章 会 讲 反 向 运算 符 。 
从 Python 3.4 开始 ， 数 组 (array) 类 型 不 再 支持 诸如 List.sort() 这 种 就 地 
排序 方法 。 要 给 数组 排序 的 话 ， 得 用 sorted 函数 新 建 一 个 数组 : 
a = array.array(a.typecode, sorted(a)) 


想 要 在 不 打 乱 次 序 的 情况 下 为 数组 添加 新 的 元 素 ，bisect.insort 还 是 能 派 上 
用 场 〈 就 像 2.8.2 节 中 所 展示 的 )。 
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如 果 你 总 是 跟 数 组 打交道 ， 却 没有 听 过 memoryview， 那 就 太 和 遗憾 了 。 下 面 就 来 谈 谈 


memoryview, 


2.9.2 内存 视图 


memoryview 是 一 个 内 置 类 ， 它 能 让 用 户 在 不 复制 内 容 的 情况 下 操作 同一 个 数组 的 不 同 切 
片 。memoryview 的 概念 受到 了 NumPy 的 启发 (参见 2.9.3 节 )。Travis Oliphant 是 NumPy 


的 主要 作者 ， 他 在 回答 ”When should a memoryview be used?” (http://stackoverflow.com/ 
questions/4845418/when-should-a-memoryview-be-used/) 这 个 问题 时 是 这 样 说 的 : 


内 存 视图 其 实 是 泛 化 和 去 数学 化 的 NumPy 数组 。 它 让 你 在 不 需要 复制 内 容 的 前 提 下 ， 
在 数据 结构 之 间 共 享 内 存 。 其 中 数据 结构 可 以 是 任何 形式 ， 比 如 PIL AA, SQLite 
数据 库 和 NumPy 的 数组 ， 等 等 。 这 个 功能 在 处 理 大 型 数据 集合 的 时 候 非 常 重要 。 


memoryview.cast 的 概念 跟 数 组 模块 类 似 ， 能 用 不 同 的 方式 读 写 同一 块 内 存 数据 ， 而 且 内 容 
字 节 不 会 随意 移动 。 这 听 上 去 又 跟 C 语言 中 类 型 转换 的 概念 差不多 。memoryview.cast 会 
把 同一 块 内 存 里 的 内 容 打包 成 一 个 全 新 的 memoryview 对 象 给 你 。 


在 示例 2-21 里 ， 我 们 利用 memoryview 精准 地 修改 了 一 个 数组 的 某 个 字 节 ， 这 个 数组 的 元 
素 是 16 位 二 进 制 整数 。 


示例 2-21 通过 改变 数组 中 的 一 个 字 节 来 更 新 数组 里 某 个 元 素 的 值 
>>> numbers = array.array('h', [-2, -1, 0, 1, 2]) 
>>> memv = memoryview(numbers) @ 
>>> Len(memv) 
5 
>>> memv[0] @ 
-2 














>>> memv_oct = memv.cast('B') © 

>>> memv_oct.tolist() @ 

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0] 
>>> memv_oct[5] = 4 日 

>>> numbers 

array('h', [-2, -1, 1024, 1, 2]) © 


O 利用 含有 5 个 短 整 型 有 符号 整数 的 数组 (类 型 码 是 'h') 创建 一 个 memoryview。 

@ memv 里 的 5 个 元 素 跟 数组 里 的 没有 区 别 。 

© 创建 一 个 nemv_oct， 这 一 次 是 把 mem 里 的 内 容 转换 成 'B' 类 型 ， 也 就 是 无 符号 字符 。 

O 以 列表 的 形式 查看 memv_oct WAZA. 

O 把 位 于 位 置 5 的 字 节 赋值 成 4。 

O 因为 我 们 把 占 2 个 字 节 的 整数 的 高 位 字 节 改 成 4， 所 以 这 个 有 符号 整数 的 值 就 变 成 
了 1024, 

在 第 4 章 的 示例 4-4 中 ， 我 们 还 可 以 看 到 如 何 利 用 memoryview 和 struct 来 操作 二 进 制 序列 。 


另外 ， 如 果 利 用 数组 来 做 高 级 的 数字 处 理 是 你 的 日 常 工作 ， 那 么 NumPy 和 SciPy 应 该 是 你 
的 常用 武器 。 下 面 就 是 对 这 两 个 库 的 简单 介绍 。 





























2.9.3 NumPy 和 SciPy 





整 本 书 我 都 在 强调 如 何 最 大 限度 地 利用 Python 标准 库 。 但 是 NumPy 和 SciPy 的 优秀 让 我 





觉得 偶尔 跑 个 题 来 谈 谈 它们 也 是 很 值得 的 。 


凭借 着 NumPy 和 SciPy 提供 的 高 阶 数组 和 和 矩阵 操作 ，Python 成 为 科学 计算 应 用 的 主流 语 
言 。NumPy 实现 了 多 维 同 质 数组 (homogeneous array) 和 矩阵， 这 些 数据 结构 不 但 能 处 理 





数字 ， 还 能 存放 其 他 由 用 户 定义 的 记录 。 通 过 NumPy， 用 户 能 对 这 些 数 据 结构 


行 高 效 的 操作 。 





的 元 素 进 


SciPy 是 基于 NumPy 的 另 一 个 库 ， 它 提供 了 很 多 跟 科学 计算 有 关 的 算法 ， 专 为 线性 代数 、 
数值 积分 和 统计 学 而 设计 。SciPy 的 高 效 和 可 靠 性 归功 于 其 背后 的 C 和 Fortran 代码 ， 而 这 
些 跟 计算 有 关 的 部 分 都 源 自 于 Netlib Æ (http://www.netlib.org)。 换 名 话说 ，SciPy 把 基于 
C 和 Fortran 的 工业 级 数学 计算 功能 用 交互 式 且 高 度 抽象 的 Python 包装 起 来 ， 让 科学 家 如 























鱼 得 水 。 





示例 2-22 是 一 个 很 简短 的 演示 ， 从 中 可 以 宁 见 一 些 NumPy 二 维 数组 的 基本 操作 。 


示例 2-22 对 numpy.ndarray 的 行 和 列 进行 基本 操作 

>>> import numpy @ 
>>> a = numpy.arange(12) @ 
>>> a 
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) 
>>> type(a) 
<class 'numpy.ndarray'> 
>>> a.shape © 
(12,) 
>>> a.shape = 3, 4 @ 
>>> a 
array([[ 0, 1, 2, 3], 

[ 4, 5, 6, 7], 

[ 8, 9, 10, 11]]) 
>>> a[2] © 
array([ 8, 9, 10, 11]) 
>>> a[2, 1] © 
9 
>>> a[:, 1] @ 
array([1, 5, 9]) 
>>> a.transpose() O 
array([[ 0, 4, 8], 


1, 5, 9], 
[ 2, 6, 10], 
[ 3, 7, 11]]) 


O 安装 NumPy 之 后 ， 导 入 它 (NumPy 并 不 是 Python 标准 库 的 一 部 分 )。 
O 新 建 一 个 0~11 的 整数 的 numpy.ndarray， 然 后 把 它 打印 出 来 。 

© 看 看 数组 的 维度 ， 它 是 一 个 一 维 的 、 有 12 个 元 素 的 数组 。 

O 把 数组 变 成 二 维 的 ， 然 后 把 它 打 印 出 来 看 看 。 

O 打印 出 第 2 行 。 

O 打印 第 2 行 第 1 列 的 元 素 。 
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O 把 第 1 列 打 印 出 来 。 
O 把 行 和 列 交 换 ， 就 得 到 了 一 个 新 数组 。 


NumPy 也 可 以 对 numpy.ndarray 中 的 元 素 进行 抽象 的 读 取 、 保 存 和 其 他 操作 : 


>>> import numpy 

>>> floats = numpy.loadtxt('floats-10M-lines.txt') @ 

>>> floats[-3:] @ 

array([ 3016362.69195522, 535281.10514262, 4566560.44373946]) 
>>> floats *= .5 © 

>>> floats[-3:] 

array([ 1508181.34597761, 267640.55257131, 2283280.22186973]) 
>>> from time import perf_counter as pc @ 

>>> tO = pc(); floats /= 3; pc() - to 日 
0.03690556302899495 

>>> numpy.save('floats-10M', floats) @ 

>>> floats2 = numpy.load('floats-10M.npy', 'r+') @ 

>>> floats2 *= 6 

>>> floats2[-3:] © 

memmap([3016362.69195522, 535281.10514262, 4566560.44373946]) 


@ 从 文本 文件 里 读 取 1000 万 个 浮 点 数 。 

O 利用 序列 切片 来 读 取 其 中 的 最 后 3 个 数 。 

© 把 数组 里 的 每 个 数 都 乘 以 0.5， 然 后 再 看 看 最 后 3 个 数 。 

O 导入 精度 和 性 能 都 比较 高 的 计时 器 (Python 3.3 及 更 新 的 版 本 中 都 有 这 个 库 )。 

O 把 每 个 元 素 都 除 以 3， 可 以 看 到 处 理 1000 万 个 浮 点 数 所 需 的 时 间 还 不 足 40 毫秒 。 
O 把 数组 存 入 后 级 为 .npy 的 二 进 制 文件 。 























O Lif 








i 的 数据 导入 到 另外 一 个 数组 里 ， 这 次 load 方法 利用 了 一 种 叫 作 内 存 映射 的 机 制 ， 





它 让 我 们 在 内 存 不 足 的 情况 下 仍然 可 以 对 数组 做 切片 。 
O 把 数组 里 每 个 数 乘 以 6 之 后 ， 再 检视 一 下 数组 的 最 后 3 个 数 。 





NumPy 和 SciPy 的 安装 可 能 会 比较 费劲 。 在 “Installing the SciPy Stack” 
(http://www.scipy.org/install.html) 页 面 ，SciPy.org 建议 找 一 个 科学 计算 
Python 的 分 发 渠道 帮忙 ， 比 如 Anacoda, Enthought Canopy, WinPython, 等 
等 。 常 见 的 GNU/Linux 版 本 的 用 户 应 该 可 以 在 他 们 自己 的 包 管理 系统 中 找到 
NumPy 和 SciPy。 例 如 ， 在 Debian 或 者 Ubuntu 上 面 ， 用 户 可 以 通过 下 面 的 
命令 一 键 安装 : 


$ sudo apt-get install python-numpy python-scipy 




















以 上 的 内 容 仅 仅 是 九 牛 一 毛 。NumpPy 和 SciPy 都 是 异常 强大 的 库 ， 也 是 其 他 一 些 很 有 用 的 
工具 的 基石 。Pandas (http://pandas.pydata.org) 和 Blaze (http://blaze.pydata.org) 数据 分 析 
库 就 以 它们 为 基础 ， 提 供 了 高 效 的 且 能 存储 非 数 值 类 数据 的 数组 类 型 ， 和 读 写 常见 数据 文 
件 格式 (例如 csv、xls、SQL 转 储 和 HDF5) 的 功能 。 因 此 ， 要 详细 介绍 NumPy 和 SciPy 
的 话 ， 不 写成 几 本 书 是 不 可 能 的 。 虽 然 本 书 不 在 此 列 ， 但 是 如 果 要 对 Python 的 序列 类 型 做 
一 个 概览 ， 了 臣 怕 没有 人 能 忽略 NumPy。 


在 介绍 完 局 平 序列 (包括 标准 数组 和 NumpPy 数组 ) 之 后 ， 让 我 们 把 目光 投向 Python 中 可 
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以 取代 列表 的 另外 一 种 数据 结构 : 队列 。 


2.9.4 双向 队列 和 其 他 形式 的 队列 


利用 .append 和 .pop 方 法， 我 们 可 以 把 列表 当 作 栈 或 者 队列 来 用 (比如 ， 把 .append 
和 .pop(9) 合 起 来 用 ， 就 能 模拟 队列 的 “先进 先 出 ”的 特点 )。 但 是 删除 列表 的 第 一 个 元 素 
(抑或 是 在 第 一 个 元 素 之 前 添加 一 个 元 素 ) 之 类 的 操作 是 很 耗 时 的 ， 因 为 这 些 操 作 会 牵扯 
到 移动 列表 里 的 所 有 元 素 。 





collections.deque 类 








(双向 队列 ) 是 一 个 线程 安全 、 可 以 快速 从 两 端 添 加 或 者 删除 元 素 的 


数据 类 型 。 而 且 如 果 想 要 有 一 种 数据 类 型 来 存放 “最 近 用 到 的 几 个 元 素 " deque 也 是 一 个 
很 好 的 选择 。 这 是 因为 在 新 建 一 个 双向 队列 的 时 候 ， 你 可 以 指定 这 个 队列 的 大 小 ， 如 果 这 
个 队列 满员 了 ， 还 可 以 从 反 向 端 删除 过 期 的 元 素 ， 然 后 在 尾 端 添加 新 的 元 素 。 示 例 2-23 中 
有 几 个 双向 队列 的 典型 操作 。 


示例 2-23 ”使 用 双向 队列 
>>> from collections import deque 
>>> dq = deque(range(10), maxlen=10) @ 


>>> dq 

deque([0, 1, 2, 3 
>>> dq.rotate(3) 
>>> dq 

deque([7, 8, 9, 0 
>>> dq.rotate(-4) 
>>> dq 

deque([1, 2, 3, 4 





» 4, 5, 6, 7, 8, 9], maxlen=10) 


© 


go dye ey, Sa Se Oy 6], maxLen=10) 


» 5, 6, 7, 8, 9, 0], maxlen=10) 


>>> dq.appendleft(-1) © 


>>> dq 


deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10) 


>>> dq.extend([11 
>>> dq 
deque([3, 4, 5, 6 


» 22, 33]) @ 


» 7, 8, 9, 11, 22, 33], maxlen=10) 


>>> dq.extendleft([10, 20, 30, 40]) 日 


>>> dq 


deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10) 


Q naxlen 是 一 个 可 选 参 数 ， 代 表 这 个 队列 可 以 容纳 的 元 素 的 数量 ， 而 且 一 旦 设 定 ， 这 个 


属性 就 不 能 修改 了 。 








O 队列 的 旋转 操作 接受 一 个 参数 n， 当 n > 09 时， 队列 的 最 右边 的 个 元 素 会 被 移动 到 队 





列 的 左边 。 当 n < 0 
© 当 试 图 对 一 个 已 满 





时 ， 最 左边 的 n 个 元 素 会 被 移动 到 右边 。 
(len(d) == d.maxlen) 的 队列 做 头 部 添加 操作 的 时 候 ， 它 尾部 的 元 


素 会 被 删除 掉 。 注 意 在 下 一 行 里 ， 元 素 9 被 删除 了 。 
O 在 尾部 添加 3 个 元 素 的 操作 会 挤 掉 -1、1 和 2。 
O extendleft(iter) 方法 会 把 迭代 器 里 的 元 素 逐 个 添加 到 双向 队列 的 左边 ， 因 此 返 代 器 里 











的 元 素 会 逆序 出 现 丰 
表 2-3 总 结 了 列表 和 双 


E 队 列 里 。 
向 队列 这 两 个 类 型 的 方法 (object 类 包含 的 方法 除外 )。 





双向 队列 实现 了 大 部 分 列表 所 拥有 的 方法 ， 也 有 一 些 额 外 的 符合 自身 设计 的 方法 ， 比 如 说 
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popleft 和 rotate。 但 是 为 了 实现 这 些 方法 ， 双 向 队列 也 付出 了 一 些 代 价 ， 从 队列 中 间 删 
除 元 素 的 操作 会 慢 一 些 ， 因 为 它 只 对 在 头 尾 的 操作 进行 了 优化 。 


append 和 popleft 都 是 原子 操作 ， 也 就 说 是 deque 可 以 在 多 线程 程序 中 安全 地 当 作 先进 先 














出 的 队列 使 用 ， 而 使 用 者 不 需要 担心 资源 锁 的 问题 。 
表 2-3: 列表 和 双向 队列 的 方法 (不 包括 由 对 象 实现 的 方法 ) 
列表 ”双向 队列 



































































































































s.__add__(s2) 。 s + s2， 拼 接 

s.__iadd__(s2) 。 。 s += s2， 就 地 拼接 

s.append(e) 。 。 添加 一 个 元 素 到 最 右 侧 (到 最 后 一 个 元 素 之 后 ) 
s.appendleft(e) 。 添加 一 个 元 素 到 最 左 侧 (到 第 一 个 元 素 之 前 ) 
s.clear() . . 删除 所 有 元 素 

s.__contains__(e) . s 是 否 含有 @ 

s.copy() 。 对 列表 浅 复制 

s.__copy_() 。 对 copy.copy ( 浅 复 制 ) 的 支持 

s.count(e) ° 。 s h e 出 现 的 次 数 

s.__delitem__(p) 。 。 把 位 置 p 的 元 素 移 除 

s.extend(i) 。 。 将 可 进 代 对 象 二 中 的 元 素 添 加 到 尾部 
s.extendleft(i) 。 将 可 迭代 对 象 i 中 的 元 素 添加 到 头 部 

s. getitem (p) 。 。 s[p]， 读 取 位 置 p 的 元 素 

s.index(e) 。 找到 e 在 序列 中 第 一 次 出 现 的 位 置 
s.insert(p, e) 。 在 位 于 Pp 的 元 素 之 前 插入 元 素 e 
s.__iter__() . . 返回 迭代 器 

s.__len_() 。 。 Len(s) ， 序 列 的 长 度 

s.__mul__(n) . s * n， 重 复 拼接 

s.__imul__(n) ° s *= n， 就 地 重复 拼接 

s.__rmul__(n) 。 DES, 反 向 重复 拼接 

s.pop() 。 e 移 除 最 后 一 个 元 素 并 返回 它 的 值 
s.popleft() 。 移 除 第 一 个 元 素 并 返回 它 的 值 
s.remove(e) . ° 移 除 序列 里 第 一 次 出 现 的 e 元 素 
s.reverse() . 。 调转 序列 中 元 素 的 位 置 

s.__reversed_() 。 。 返回 一 个 从 尾部 开始 扫描 元 素 的 返 代 器 
s.rotate(n) 。 把 n 个 元 素 从 队列 的 一 端 移 到 另 一 端 
s.__setitem__(p, e) 。 。 s[p] = e， 把 位 于 p 位 置 的 元 素 禁 换 成 
s.sort([key], [reverse]) 。 就 地 排序 序列 ， 可 选 参数 有 key 和 reverse 


* 第 13 章 会 讲 反 向 运算 符 。 


#a_list.pop(p) 这 个 操作 只 能 用 于 列表 ， 双 向 队列 的 这 个 方法 不 接收 参数 。 
除了 deque 之 外 ， 还 有 些 其 他 的 Python 标准 库 也 有 对 队列 的 实现 。 








queue 


提供 了 同步 〈 线 程 安全 ) 类 Queue, LifoQueue 和 PriorityQueue， 不 同 的 线程 可 以 利用 
这 些 数据 类 型 来 交换 信息 。 这 三 个 类 的 构造 方法 都 有 一 个 可 选 参数 maxsize， 它 接收 正 
整数 作为 输入 值 ， 用 来 限定 队列 的 大 小 。 但 是 在 满员 的 时 候 ， 这 些 类 不 会 扔 掉 旧 的 元 素 
来 腾 出 位 置 。 相 反 ， 如 果 队 列 满 了 ， 它 就 会 被 锁 住 ， 直 到 另外 的 线程 移 除 了 某 个 元 素 而 
腾 出 了 位 置 。 这 一 特性 让 这 些 类 很 适合 用 来 控制 活跃 线程 的 数量 。 


multiprocessing 


这 个 包 实 现 了 自己 的 Queue， 它 跟 queue.Queue 类 似 ， 是 设计 给 进程 间 通 信用 的 。 同 时 
还 有 一 个 专门 的 multiprocessing.JoinableQueue 类 型 ， 可 以 让 任务 管理 变 得 更 方便 。 


asyncio 





























Python 3.4 新 提供 的 包 ， 里 面 有 Queue、LifoQueue、PriorityQueue 和 JoinableQueue, 
这 些 类 受到 queue 和 multiprocessing 模块 的 影响 ， 但 是 为 异步 编程 里 的 任务 管理 提供 
了 专门 的 便利 。 


heapq 


跟 上 面 三 个 模块 不 同 的 是 ，heapq 没有 队列 类 ， 而 是 提供 了 heappush 和 heappop 方法 ， 
让 用 户 可 以 把 可 变 序列 当 作 堆 队列 或 者 优先 队列 来 使 用 。 


到 了 这 里 ， 我 们 对 列表 之 外 的 类 的 介绍 也 就 告 一 段落 了 ， 是 时 候 阶 段 性 地 总 结 一 下 对 序列 
类 型 的 探索 了 。 注 意 我 们 还 没有 提 到 str (字符 串 ) 和 二 进 制 序列 ， 它 们 将 在 第 4 章 中 专 
门 介绍 。 


2.10 ”本章 小 结 
要 想 写 出 准确 、 高 效 和 地 道 的 Python 代码 ， 对 标准 库 里 的 序列 类 型 的 掌握 是 不 可 或 缺 的 。 


Python 序列 类 型 最 常见 的 分 类 就 是 可 变 和 不 可 变 序列 。 但 另外 一 种 分 类 方式 也 很 有 用 ， 那 
就 是 把 它们 分 为 扁平 序列 和 容器 序列 。 前 者 的 体积 更 小 、 速 度 更 快 而 且 用 起 来 更 简单 ， 但 
是 它 只 能 保存 一 些 原 子 性 的 数据 ， 比 如 数字 、 字 符 和 字 节 。 容 器 序列 则 比较 灵活 ， 但 是 当 
容器 序列 遇 到 可 变 对 象 时 ， 用 户 就 需要 格外 小 心 了 ， 因 为 这 种 组 合 时 常会 搞 出 一 些 “ 意 
外 ”， 特 别 是 带 幅 套 的 数据 结构 出 现时 ， 用 户 要 多 费 一 些 心思 来 保证 代码 的 正确 。 


列表 推导 和 生成 器 表达 式 则 提供 了 灵活 构建 和 初始 化 序列 的 方式 ， 这 两 个 工具 都 异常 强 
大 。 如 果 你 还 不 能 熟练 地 使 用 它们 ， 可 以 专门 花 时 间 练 习 一 下 。 它 们 其 实 不 难 ， 而 且 用 起 
KIEA EH. 


元 组 在 Python 里 扮演 了 两 个 角色 ， 它 既 可 以 用 作 无 名 称 的 字段 的 记录 ， 又 可 以 看 作 不 可 变 
的 列表 。 当 元 组 被 当 作 记 录 来 用 的 时 候 ， 拆 包 是 最 安全 可 靠 地 从 元 组 里 提取 不 同 字段 信息 
的 方式 。 新 引入 的 * 句法 让 元 组 拆 包 的 便利 性 更 上 一 层 楼 ， 让 用 户 可 以 选择 性 忽略 不 需要 
的 字段 。 具 名 元 组 也 已 经 不 是 一 个 新 概念 了 ， 但 它 似乎 没有 受到 应 有 的 重视 。 就 像 普通 元 
组 一 样 ， 具 名 元 组 的 实例 也 很 节省 空间 ， 但 它 同 时 提供 了 方便 地 通过 名 字 来 获取 元 组 各 个 
字段 信息 的 方式 ， 另 外 还 有 个 实用 的 ._asdict() 方法 来 把 记录 变 成 orderedDict 类 型 。 
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Python 里 最 受 欢迎 的 一 个 语言 特性 就 是 序列 切片 ， 而 且 很 多 人 其 实 还 没完 全 了 解 它 的 强大 
之 处 。 比 如 ， 用 户 自 定义 的 序列 类 型 也 可 以 选择 支持 NumPy 中 的 多 维 切片 和 省 略 〈.….)。 
另外 ， 对 切片 赋值 是 一 个 修改 可 变 序列 的 捷径 。 

重复 拼接 seq * n 在 正确 使 用 的 前 提 下 ， 能 让 我 们 方便 地 初始 化 含有 不 可 变 元 素 的 多 维 列 
Ko WEWE += 和 *= 会 区 别 对 待 可 变 和 不 可 变 序 列 。 在 过 到 不 可 变 序 列 时 ， 这 两 个 操作 
会 在 背后 生成 新 的 序列 。 但 如 果 被 赋值 的 对 象 是 可 变 的 ， 那 么 这 个 序列 会 就 地 修改 一 一 然 
而 这 也 取决 于 序列 本 身 对 特殊 方法 的 实现 。 


序列 的 sort 方法 和 内 置 的 sorted 函数 虽然 很 灵活 ， 但 是 用 起 来 都 不 难 。 这 两 个 方法 都 比 
较 灵 活 ， 是 因为 它们 都 接受 一 个 国 数 作为 可 选 参数 来 指定 排序 算法 如 何 比较 大 小 ， 这 个 参 
数 就 是 key 参数 。key 还 可 以 被 用 在 min 和 max 函数 里 。 如 果 在 插入 新 元 素 的 同时 还 想 保 
持 有 序 序列 的 顺序 ， 那 么 需要 用 到 bisect.insort, bisect.bisect 的 作用 则 是 快速 查找 。 


除了 列表 和 元 组 ，Python 标准 库 里 还 有 array.array。 另 外 ， 虽 然 NumPy 和 SciPy 都 不 
是 Python 标准 库 的 一 部 分 ， 但 稍微 学 习 一 下 它们 ， 会 让 你 在 处 理 大 规模 数值 型 数据 时 如 
有 神助 。 
KERKEN T collections.deque 这 个 类 型 ， 它 具有 灵活 多 用 和 线程 安全 的 特性 。 表 2-3 
将 它 和 列表 的 API 做 了 比较 。 本 章 最 后 也 提 及 了 一 些 标准 库 中 的 其 他 队列 类 型 的 实现 。 


2.11 延伸 阅读 


David Beazley 和 Brian K. Jones 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 的 第 1 章 
“数据 结构 ”里 有 很 多 专门 针对 序列 的 小 窍门 。 尤 其 是 “1.11 对 切片 命名 ”这 一 部 分 ， 从 
中 我 学 会 把 切片 赋值 给 变量 以 改善 可 读 性 ， 本 书 的 示例 2-11 对 此 做 了 说 明 。 


《Python Cookbook (第 2 版 ) 中 文 版 》 用 的 是 Python 2.4， 但 其 中 大 部 分 的 代码 都 可 以 运行 
在 Python 3 中 。 该 书 第 5 章 和 第 6 章 的 大 部 分 内 容 都 是 跟 序列 有 关 的 。 该 书 的 编者 有 Alex 
Martelli, Anna Martelli Ravenscroft 和 David Ascher， 另 外 还 有 十 几 位 Python 程序 员 为 内 容 
做 出 了 贡献 。 第 3 版 则 是 从 零 开 始 完全 重 写 的 ， 书 的 重点 也 放 在 了 Python 的 语义 上 ， 特 别 
是 Python 3 带 来 的 那些 变化 ， 而 不 是 像 第 2 版 那样 把 重点 放 在 如 何 解 决 实际 问题 上 。 虽 然 
第 2 版 中 有 些 内 容 已 经 不 是 最 优 解 了 ， 但 是 我 仍然 推荐 把 这 两 个 版 本 都 读 一 读 。 

Python 官方 网 站 中 的 “Sorting HOW TO” 一 文 (https://docs.python.org/3/howto/sorting. 
html) 通过 几 个 例子 讲解 了 sorted 和 List.sort 的 高 级 用 法 。 


“PEP 3132 一 Extended Iterable Unpacking” (https://www.python.org/dev/peps/pep-3132/) 算 
得 上 是 使 用 *extra 名 法 进行 平行 赋值 的 权威 指南 。 如 果 你 想 客 探 一 下 Python 本 身 的 开发 
过 程 ，“Missing *-unpacking generalizations” (http://bugs.python.org/issue2292) 是 一 个 bug 
追踪 颖 ， 里 面 有 很 多 关于 如 何 更 广泛 地 使 用 可 迭代 对 象 拆 包 的 讨论 和 提议 。 PEP 448 一 
Additional Unpacking Generalizations” (https://www.python.org/dev/peps/pep-0448/) 就 是 这 
些 讨论 的 直接 结果 。 就 在 我 写 这 本 书 的 时 候 ， 这 些 改动 也 许 会 被 集成 在 Python 3.5 中 。 

Eli Bendersky 的 博客 文章 “Less Copies in Python with the Buffer Protocol and memoryviews” 
(http://eli.thegreenplace.net/201 1/1 1/28/less-copies-in-python-with-the-buffer-protocol-and- 
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memoryviews/) 里 有 一 些 关 于 memoryview 的 小 教程 。 


市 面 上 关于 NumPy 的 书 多 到 数 不 清 ， 其 中 有 些 书 的 名 字 里 都 不 带 “NumPy” 这 几 个 字 ， 
例如 Wes McKinney 的 《利用 Python 进行 数据 分 析 》 一 书 。 


科学 家 尤其 钟爱 NumPy 和 SciPy 的 强大 以 及 与 Python 的 交互 式 控制 台 的 结合 ， 于 是 他 们 
专门 开发 了 IPython。IPython 是 Python 自 带 控制 台 的 强大 替代 品 ， 而 且 它 还 附带 了 图 形 界 
面 、 内 骨 的 图 表 泻 染 、 文 学 编程 支持 (代码 和 文本 互动 ) 和 PDF 演 染 。 而 这 些 互动 多 媒体 
对 话 还 能 以 IPython 记事 本 的 形式 在 网 络 上 分 享 一 一 详 见 “IPython 记事 本 ” (http://ipython. 
org/notebook.html) 中 的 截屏 和 视频 。IPython 在 2012 年 非常 流行 ， 背 后 的 开发 者 收 到 了 一 
笔 1 150 000 美元 的 捐赠 。 这 笔 来 自 Sloan 基金 的 捐赠 是 专门 用 来 支持 加 州 大 学 伯克利 分 校 
的 开发 者 的 ， 好 让 他 们 能 在 2013 一 2014 年 期 间 按 计划 实现 IPython 的 扩展 。 


Python 标准 库 里 的 “8.3. collections 一 Container datatypes” (https://docs.python.org/3/library/ 
collections.html) 里 有 一 些 关 于 双向 队列 和 其 他 集合 类 型 的 使 用 技巧 。 


Python 里 的 范围 (range) 和 切片 都 不 会 返回 第 二 个 下 标 所 指 的 元 素 ，Edsger W. Dijkstra 在 
一 个 很 短 的 备忘录 里 为 这 一 惯例 做 了 最 好 的 辩护 。 这 篇 名 为 “Why Numbering Should Start 
at Zero” (http://www.cs.utexas.edu/users/EWD/transcriptions/EWD08xx/EWD831.html) 的 备 
忘 录 其 实 是 关于 数学 符号 的 ， 但 是 它 跟 Python 的 关系 在 于 ，Dijkstra 教授 严肃 又 活 淡 地 解 
释 了 为 什么 2，3，…，12 这 个 序列 应 该 表达 为 2 < i < 13。 和 备忘录 对 其 他 所 有 的 表达 习 
惯 都 作出 了 反驳 ， 同 时 还 说 明了 为 什么 不 能 让 用 户 自行 决定 表达 习惯 。 虽 然 文章 的 标题 是 
关于 基于 0 的 下 标 ， 但 是 整 篇 文章 其 实 都 在 说 为 什么 'ABCDE'[1:3] 的 结果 应 该 是 'BC' 而 
不 是 "BCD' ， 以 及 为 什么 2，3，…，12 应 该 写作 range(2，13)。( 顺 便 说 一 下 ， 这 份 备 忘 
录 是 手写 的 ， 但 是 字 写 得 干净 漂亮 。 如 果 有 人 就 此 创作 Dijkstra 字体 ， 我 应 该 会 买 一 份 。) 


























































































































元 组 的 本 质 


2012 年 ， 我 在 PyCon US 上 贴 了 一 张 关于 ABC 语言 的 墙报 。Guido 在 开创 Python 语 
言 之 前 曾 做 过 ABC 解释 器 方面 的 工作 ， 因 此 他 也 去 看 了 我 的 墙报 。 我 们 聊 了 不 少 ， 而 
且 都 提 到 了 ABC 里 的 compounds 类 型 。compounds 算得 上 是 Python 元 组 的 鼻祖 ， 它 既 
支持 平行 赋值 ， 又 可 以 用 在 字典 (dict) 里 作为 合成 键 (ABC 里 对 应 字典 的 类 型 是 表 
格 ， 即 table), 42 compounds 不 属于 序列 ， 它 不 是 选 代 类 型 ， 也 不 能 通过 下 标 来 提取 
某 个 值 ， 更 不 用 说 切片 了 。 要 么 把 compounds 对 象 当 作 整 体 来 用 ， 要 么 用 平行 赋值 把 
里 面 所 有 的 字段 都 提取 出 来 ， 仅 此 而 已 。 


ASR Guido 说 ， 上 面 这 些 限制 让 compounds 的 作用 变 得 很 明确 ， 它 只 能 用 作 没 有 字段 名 
的 记录 。Guido 回应 说 ，Python 里 的 元 组 能 当 作 序列 来 使 用 ， 其 实 是 一 个 取 巧 的 实现 。 


这 其 实体 现 了 Python 的 实用 主义 ， 而 实用 主义 是 Python 较 之 ABC 更 好 用 也 更 成 功 的 
原因 。 从 一 个 语言 开发 人 员 的 角度 来 看 ， 让 元 组 具有 序列 的 特性 可 能 需要 下 点 功夫 ， 
结果 则 是 设计 出 了 一 个 概念 上 并 不 如 compounds 纯粹 ， 却 更 灵活 的 元 组 一 一 它 甚至 能 
当成 不 可 变 的 列表 来 使 用 。 
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说 真 的 ， 不 可 变 列表 这 种 数据 类 型 在 编程 语言 里 真 的 非常 好 用 (其 实 frozenlist 这 个 
名 字 更 酷 ) ， 而 Python 里 这 种 类 型 其 实 就 是 一 个 行为 很 像 序列 的 元 组 。 
“优雅 是 简约 之 父 ” 

很 久 以 前 ，*extra 这 种 语法 就 在 函数 里 用 来 把 多 个 元 素 赋值 给 一 个 参数 了 。( 我 有 本 
出 版 于 1996 年 的 讲 Python 1.4 的 书 ， 里 面 就 提 到 了 这 个 用 法 。) Python 1.6 或 更 新 的 版 
本 里 ， 这 个 语法 在 函数 调用 中 用 来 把 一 个 可 选 代 对 象 拆 包 成 不 同 的 参数 ， 这 算是 跟 上 
面 说 的 那 种 用 法 互补 。 这 一 设计 直观 而 优雅 ， 并 且 取 代 了 Python 里 的 apply 函数 。 如 
今 到 了 Python 3，*extra 这 个 写法 又 可 以 用 在 赋值 表达 式 的 左 侧 ， 从 而 在 平行 赋值 里 
接收 多 余 的 元 素 。 这 一 点 让 这 个 本 来 就 很 实用 的 语法 锦上添花 。 

像 这 样 的 改进 一 个 接着 一 个 ， 让 Python 变 得 越 来 越 灵 活 ， 越 来 越 统一 ， 也 越 来 越 简单 。 
“优雅 是 简约 之 父 ”( "Elegance begets simplicity”) Æ 2009 年 在 芝加哥 的 PyCon 的 口号 ， 
印 在 PyCon 的 工 恤 上， 同样 印 在 工 必 上 的 还 有 Bruce Eckel 画 的 《 易 经 》 第 二 十 二 卦 ， 
即 贵 卦 的 卦 和 象 。 下 代表 着 典雅 高 责 。 这 也 是 我 最 喜欢 的 一 件 PyCon $5 T th, 


扁平 序列 和 容器 序列 

为 了 解释 不 同 序列 类 型 里 不 同 的 内 存 模型 ， 我 用 了 容器 序列 和 扁平 序列 这 两 个 说 法 。 
其 中 “容器 ”一 词 来 自 “Data Model” 文 档 (https://docs.python.org/3/reference/datamodel. 
html#objects-values-and-types) : 


有 些 对 象 里 包含 对 其 他 对 象 的 引用 ; 这 些 对 象 称 为 容器 。 


因此 ， 我 特别 使 用 了 “容器 序列 ”这 个 词 ， 因 为 Python 里 有 是 容器 但 并 非 序列 的 类 
型 ， 比 如 dict 和 set。 容 器 序列 可 以 谋 套 着 使 用 ， 因 为 容器 里 的 引用 可 以 针对 包括 自 
身 类 型 在 内 的 任何 类 型 。 

与 此 相反 ， 扁 平 序列 因为 只 能 包含 原子 数据 类 型 ， 比 如 整数 、 浮 点 数 或 字符 ， 所 以 不 
AE ke BE FA 

称 其 为 “扁平 序列 ”是 因为 我 希望 有 个 名 词 能 够 跟 “ 容 器 序列 ”形成 对 比 。 这 个 词 是 
我 自己 发 明 的 ， 专门 用 来 指 代 Python 中 “不 是 容器 序列 ”的 序列 ， 在 其 他 地 方 你 
可 能 找 不 到 这 样 的 用 法 。 如 果 这 个 词 出 现在 维基 百科 上 面 的 话 ， 我 们 需要 给 它 加 上 
“原创 研究 ”标签 。 我 更 倾向 于 把 这 类 词 称 作 “ 自 创 名 词 ”， 和 希望 它 能 对 你 有 所 帮助 
并 为 你 所 用 。 

混合 类 型 列表 

Python 入 门 教 材 往 往 会 强调 列表 是 可 以 同时 容纳 不 同类 型 的 元 素 的 ， 但 是 实际 上 这 样 
做 并 没有 什么 特别 的 好 处 。 我 们 之 所 以 用 列表 来 存放 东西 ， 是 期 待 在 稍 后 使 用 它 的 时 
候 ， 其 中 的 元 素 有 一 些 通用 的 特性 (比如 ,列表 里 存 的 是 一 类 可 以 “ 哌 哌 ” 叫 的 动物 ， 
那么 所 有 的 元 素 都 应 该 会 发 出 这 种 叫 声 ， 即 便 其 中 一 部 分 元 素 类 型 并 不 是 鸭子 ) 。 在 
Python 3 中 ， 如 果 列 表 里 的 东西 不 能 比较 大 小 ， 那 么 我 们 就 不 能 对 列表 进行 排序 : 











>>> l = [28, 14, '28', 5, '9', '1', 0, 6, '23', 19] 
>>> sorted(1) 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
TypeError: unorderable types: str() < int() 


元 组 则 恰恰 相反 ， 它 经 常用 来 存放 不 同类 型 的 的 元 素 。 这 也 符合 它 的 本 质 ， 元 组 就 是 
用 作 存 放 彼 此 之 间 没 有 关系 的 数据 的 记录 。 


key 参数 很 妙 


list.sort, sorted, max 和 min 函数 的 key 参 数 是 一 个 很 棒 的 设计 。 其 他 语言 里 的 
排序 函数 需要 用 户 提 供 一 个 接收 两 个 参数 的 比较 函数 作为 参数 ， 像 是 Python 2 里 的 
cmp(a，b)。 用 key 参数 能 把 事情 变 得 简单 且 高 效 。 说 它 更 简单 ， 是 因为 只 需要 提供 一 
个 单 参数 函数 来 提取 或 者 计算 一 个 值 作 为 比较 大 小 的 标准 即 可 ， 而 Python 2 的 这 种 设 
计 则 需要 用 户 写 一 个 返回 值 是 -1、0 或 者 l AAAA, HELA, AR AAA 
个 元 素 上 ，key 函数 只 会 被 调用 一 次 。 而 双 参 数 比 较 函 数 则 在 每 一 次 两 两 比较 的 时 候 
都 会 被 调用 。 诚 然 ， 在 排序 的 时 候 ，Python 总 会 比较 两 个 键 (key) ， 但 是 那 一 阶段 的 
计算 会 发 生 在 C 语言 那 一 层 ， 这 样 会 比 调 用 用 户 自 定义 的 Python 比较 函数 更 快 。 


另外 ，key 参数 也 能 让 你 对 一 个 混 有 数字 字符 和 数值 的 列表 进行 排序 。 你 只 需要 决定 
到 底 是 把 字符 看 作 数值 ， 还 是 把 数值 看 作 字 符 : 

>>> Ll = [28, 14, '28', 5, '9', '1', 0, 6, '23', 19] 

>>> sorted(l, key=int) 

[05 "1" 35.6 .9 14s 19, 923", 28, 528". 

>>> sorted(l, key=str) 

[0, '1', 14, 19, '23', 28, '28', 5, 6, '9'] 


Oracle, Google 和 Timbot 之 间 的 八卦 


sorted 和 list.sort 背后 的 排序 算法 是 Timsort， 它 是 一 种 自 适 应 算法 ,会 根据 原始 数 
据 的 顺序 特点 交替 使 用 插入 排序 和 归并 排序 ， 以 达到 最 佳 效 率 。 这 样 的 算法 被 证 明 是 
很 有 效 的 ， 因 为 来 自 真实 世界 的 数据 通常 是 有 一 定 的 顺序 特点 的 。 维 基 百 科 上 有 一 个 
条 目 是 关于 这 个 算法 的 (https://en.wikipedia.org/wiki/Timsort) 。 


Timsort 在 2002 年 的 时 候 首次 用 在 CPython 中 ; 自 2009 年 起 ，Java 和 Android 也 开始 
使 用 这 个 算法 。 后 面 这 个 时 间 点 如 此 广为人知 ， 是 因为 在 Google 对 Sun 的 侵权 案 中 ， 
Oracle 把 Timsort 中 的 一 些 相 关 代 码 当 作 了 呈 堂 证 供 。 详 见 “ Oracle v. Google—Day 
14 Filings” 一 文 (http://www.groklaw.net/articlebasic.php?story=201205 10205659643) ) 。 


Timsort 的 创始 人 是 Tim Peters， 他 同时 也 是 一 位 高 产 的 Python 核心 开发 者 。 由 于 他 页 
献 了 太 多 代码 ， 以 至 于 很 多 人 都 说 他 其 实 是 人 工 知 能， 他 也 就 有 了 “Timbot” 这 一 绰 
号 。 在 “Python Humor” (https://www.python.org/doc/humor/#id9) 里 可 以 读 到 相关 的 
故事 。Tim 也 是 “Python 2##” (import this) 的 作者 。 
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3 章 





第 
字典 和 集合 


字典 这 个 数据 结构 活跃 在 所 有 Python 程序 的 背后 ， 即 便 你 的 源码 里 并 没有 直接 用 到 它 。 
——A. M. Kuchling 
《代码 之 美 》 第 18 “Python 的 字典 类 : 如 何 打 造 全 能 战士 ” 
dict 类 型 不 但 在 各 种 程序 里 广泛 使 用 ， 它 也 是 Python 语言 的 基石 。 模 块 的 命名 空间 、 
实例 的 属性 和 函数 的 关键 字 参 数 中 都 可 以 看 到 字典 的 身影 。 跟 它 有 关 的 内 置 函 数 都 在 
__builtins__.__dict__ 模块 中 。 
正 是 因为 字典 至 关 重 要 ，Python 对 它 的 实现 做 了 高 度 优化 ， 而 散 列 表 则 是 字典 类 型 性 能 吕 
众 的 根本 原因 。 
集合 (set) 的 实现 其 实 也 依赖 于 散 列 表 ， 因 此 本 章 也 会 讲 到 它 。 反 过 来 说 ， 想 要 进一步 
里 解 集 合 和 字典 ， 就 得 先 理解 散 列 表 的 原理 。 
本 章 内 容 的 大 纲 如 下 : 
。 常见 的 字典 方法 
。 如 何 处 理 查找 不 到 的 键 
。 标准 库 中 dtct 类 型 的 变种 
。 set 和 frozenset 类 型 
。 散 列 表 的 工作 原理 
。 散 列 表 带 来 的 潜在 影响 (什么 样 的 数据 类 型 可 作为 键 、 不 可 预知 的 顺序 ， 等 等 ) 


3.1 泛 映 射 类 型 
collections.abc 模块 中 有 Mapping 和 MutableMapping 这 两 个 抽象 基 类 ， 它 们 的 作用 是 为 
dict 和 其 他 类 似 的 类 型 定义 形式 接口 (在 Python 2.6 到 Python 3.2 的 版 本 中 ， 这 些 类 还 不 
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属于 collections.abc 模块 ， 而 是 隶属 于 collections 模块 )。 详 见 图 3-1。 





| Container | - 
Container : MutableMapping 
contains getitem - 
setitem 


___delitem__ 


Iterable —eq_ clear 
_ne _ 


___contains__ 


get POP 
items popitem 
setdefault 


keys 
valies update 














3-1: collections.abc 中 的 MutableMapping 和 它 的 超 类 的 UML 类 图 (箭头 从 子 类 指向 超 类 ， 抽 
象 类 和 抽象 方法 的 名 称 以 斜体 显示 ) 
然而 ， 非 抽象 映射 类 型 一 般 不 会 直接 继承 这 些 抽 象 基 类 ， 它 们 会 直接 对 dict 或 是 
coLLections.UserDict 进行 扩展 。 这 些 抽 象 基 类 的 主要 作用 是 作为 形式 化 的 文档 ， 它 们 定 
义 了 构建 一 个 映射 类 型 所 需要 的 最 基本 的 接口 。 然 后 它们 还 可 以 跟 isinstance 一 起 被 用 来 
判定 某 个 数据 是 不 是 广义 上 的 映射 类 型 '. 
>>> my_dict = {} 


>>> isinstance(my_dict, abc.Mapping) 
True 


这 里 用 isinstance 而 不 是 type 来 检查 某 个 参数 是 否 为 dict 类 型 ， 因 为 这 个 参数 有 可 能 不 
是 dict， 而 是 一 个 比较 另类 的 映射 类 型。 
标准 库 里 的 所 有 了 映射 类 型 都 是 利用 dict 来 实现 的 ， 因 此 它们 有 个 共同 的 限制 ， 即 只 有 可 散 列 
的 数据 类 型 才能 用 作 这 些 映射 里 的 键 (只 有 键 有 这 个 要 求 ,， 值 并 不 需要 是 可 散 列 的 数据 类 型 )。 






































什么 是 可 散 列 的 数据 类 型 

在 Python 词汇 表 (https://docs.python.org/3/glossary.html#term-hashable) 中 ， 关 于 可 散 
列 类 型 的 定义 有 这 样 一 段 话 : 

如 果 一 个 对 象 是 可 散 列 的 ， 那 么 在 这 个 对 象 的 生命 周期 中 ， 它 的 散 列 值 是 不 变 

的 ， 而 且 这 个 对 象 需要 实现 hash O 方法 。 另 外 可 散 列 对 象 还 要 有 _eq_() 

方法 ， 这 样 才 能 跟 其 他 键 做 比较 。 如 果 两 个 可 散 列 对 象 是 相等 的 ， 那 么 它们 的 

散 列 值 一 定 是 一 样 的 …… 
原子 不 可 变数 据 类 型 (str, bytes 和 数值 类 型 ) 都 是 可 散 列 类 型 frozenset 也 是 可 散 
列 的 ， 因 为 根据 其 定义 ，frozenset 里 只 能 容纳 可 散 列 类 型 ， 元 组 的 话 ， 只 有 当 一 个 元 
组 包含 的 所 有 元 素 部 是 可 散 列 类 型 的 情况 下 ， 它 才 是 可 散 列 的 。 来 看 下 面 的 元 组 tt, 
tl 和 tf: 














注 1: 在 运行 这 两 行 代码 前 ， 读 者 需要 先 执行 一 下 from collections import abc, 

















>>> 
>>> 


>>> tt = (1, 2, (30, 40)) 

>>> hash(tt) 

8027212646858338501 

>>> tl = (1, 2, [30, 40]) 

>>> hash(tl) 

Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 

TypeError: unhashable type: 'list' 


tf = (1, 2, frozenset([30, 40])) 
hash(tf) 


-4118419923444501110 











直到 我 写 这 本 书 的 时 候 ，Python 词汇 表 (https://docs.python.org/3/ 
glossary.html#term-hashable) 里 还 在 说 “Python 里 所 有 的 不 可 变 类 
型 都 是 可 散 列 的 "。 这 个 说 法 其 实 是 不 准确 的 ， 比 如 虽然 元 组 本 身 























是 不 可 变 序列 ， 它 里 面 的 元 素 可 能 是 其 他 可 变 类 型 的 引用 。 


一 般 来 讲 用 户 自 定义 的 类 型 的 对 象 都 是 可 散 列 的 ， 散 列 值 就 是 它们 的 id() 函数 的 返 
回 值 ， 所 以 所 有 这 些 对 象 在 比较 的 时 候 都 是 不 相等 的 。 如 果 一 个 对 象 实 现 了 _eq_ 方 
法 ， 并 且 在 方法 中 用 到 了 这 个 对 象 的 内 部 状态 的 话 ， 那 么 只 有 当 所 有 这 些 内 部 状态 都 
是 不 可 变 的 情况 下 ， 这 个 对 象 才 是 可 散 列 的 。 

















根据 这 些 定 义 ， 字 — 典 提供 了 很 多 种 构造 方法 ,，“Built-in Types” (https://docs.python.org/3/ 
library/stdtypes.html#mapping-types-dict) 这 个 页 面 上 有 个 例子 来 说 明 创 建 字典 的 不 同方 式 : 


>>> a 
>>> b 
>>> C 
>>> d 
>>> e 
>>> a 
True 

















dict(one=1, two=2, three=3) 

{'one': 1, 'two': 2, 'three': 3} 
dict(zip(['one', 'two', 'three'], [1, 2, 3])) 
dict([('two', 2), ('one', 1), ('three', 3)]) 
= dict({'three': 3, 'one': 1, 'two': 2}) 

== b == c == d == e 





除了 这 些 字面 句法 和 灵活 的 构造 方法 之 外 ， 字 典 推导 (dict comprehension) 也 可 以 用 来 建 











造 新 dict， 





LP. 


3.2 字典 推导 


自 Python 2.7 以 来 , 列表 推导 和 生成 器 表达 式 的 概念 就 移植 到 了 字典 上 ， 从 而 有 了 字典 推 
F (后 面 还 会 看 到 集合 推导 )。 字 典 推导 (dictcomp) 可 以 从 任何 以 键 值 对 作为 元 素 的 可 迭 
代 对 象 中 构建 出 字典 。 示 例 3-1 就 展示 了 利用 字典 推导 可 以 把 一 个 装 满 元 组 的 列表 变 成 两 
个 不 同 的 字典 。 


示例 3-1 





字典 推导 的 应 用 


>>> DIAL_CODES = [ 0 


(86, 'China'), 





] 


(91, 'India'), 

(1, ‘United States'), 
(62, 'Indonesia'), 
(55, 'Brazil'), 

(92, 'Pakistan'), 
(880, 'Bangladesh'), 
(234, 'Nigeria'), 

(7, 'Russia'), 

(81, 'Japan'), 


>>> country_code = {country: code for code, country in DIAL_CODES} @ 
>>> country_code 
{'China': 86, 'India': 91, 'Bangladesh': 880, ‘United States': 1, 


"Pakistan': 


92, 'Japan': 81, 'Russia': 7, 'Brazil': 55, 'Nigeria': 


234, '‘Indonesia': 62} 
>>> {code: country.upper() for country, code in country_code.items() © 
if code < 66} 


{1: 'UNITED 


STATES', 55: 'BRAZIL', 62: 'INDONESIA', 7: 'RUSSIA'} 











O 一 个 承载 成 对 数据 的 列表 ， 它 可 以 直接 用 在 字典 的 构造 方法 中 。 
O 这 里 把 配 好 对 的 数据 左右 换 了 下 ， 国 家 名 是 键 ， 区 域 码 是 值 。 


ORLA, 
66 的 地 区 。 






































用 区 域 码 作为 键 ， 国 家 名 称 转换 为 大 写 ， 并 且 过 污 掉 区 域 码 大 于 或 等 于 




















如 果 列 表 推导 的 概念 已 经 为 你 所 熟知 ， 接 受 字 和 典 推导 应 该 不 难 。 如 果 你 对 列表 推导 还 不 
熟 ， 那 么 是 时 候 来 掌握 它 了 ， 因 为 字典 推导 的 表达 形式 会 草 延 到 其 他 数据 类 型 中 。 
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下 面 来 看 看 映射 类 型 提供 的 API 的 全 景 图 。 

















3.3 常见 的 映射 方法 


映射 类 型 的 方法 





EXIRET., K 3-1 为 我 们 展示 了 dict, defaultdict 和 OrderedDict 的 常 


见方 法 ， 后 面 两 个 数据 类 型 是 dict 的 变种 ， 位 于 collections 模块 内 。 
表 3-1: dict、collections.defaultdict 和 collections.0rderedDict 这 三 种 映射 类 型 的 
方法 列表 (依然 省 略 了 继承 自 object 的 常见 方法 ) ; 可 选 参 数 以 [... ] 表 示 


dict defaultdict OrderedDict 





d.clear() 
d.__contains__(k) 
d.copy() 
d.__copy__() 
d.default_factory 


d.__delitem_(k) 
d.fromkeys(it, [in 
























































。 。 。 移 除 所 有 元 素 
检查 k 是 否 在 d 中 
. s ， 浅 复制 
。 于 支持 copy.copy 
° JE missing 函数 中 被 调用 的 函数 ， 用 
以 给 未 找到 的 元 素 设置 值 ” 
del d[k] ， 移 除 键 为 k 的 元 素 
itial]) e ‘ ° Pek eat it 里 的 元 素 设置 为 映射 里 的 键 ， 
MRA initial 参数 ， 就 把 它 作 为 这 些 键 





对 应 的 值 (默认 是 None) 
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ub 


dict 


defaultdict 


OrderedDict 





a 


.get(k, [default]) 


a 


._getitem__(k) 


items() 
.iter_() 
keys() 
-__len__() 


o. ~ a a. 


Qa 


«__missing__(k) 


= t 


【= 本 


.pop(k, [defaul] 


d.popitem() 
d.__reversed__() 
d 


a 


.__setitem__(k, v) 


Qa 


d.values() 


-move_to_end(k, [last]) 


.setdefault(k, [default]) 


.update(m, [**kargs]) 

















返回 键 k 对 应 的 值 ， 如 果 字 典 里 没有 键 
k， 则 返回 None 或 者 default 
让 字典 d 能 用 d[k] 的 形式 返回 键 k 对 应 
的 值 



















































































返回 d 里 所 有 的 键 值 对 

获取 键 的 迭代 器 

获取 所 有 的 键 

可 以 用 Len(d) 的 形式 得 到 字典 里 键 值 对 








的 数量 
当 __getitem__ 找 不 到 对 应 键 的 时 候 ， 这 
个 方法 会 被 调用 

把 键 为 k 的 元 素 移动 到 最 靠 前 或 者 最 靠 后 
的 位 置 (last 的 默认 值 是 True) 

返回 键 k 所 对 应 的 值 ， 然 后 移 除 这 个 键 
值 对 。 如 果 没 有 这 个 键 ， 返回 None 或 者 
defaul 

随机 返回 一 个 键 值 对 并 从 字典 里 移 除 它 “ 
返回 倒序 的 键 的 友 代 器 

若 字 典 里 有 键 k， 则 直接 返回 k 所 对 应 的 
H: 若 无 ， 则 让 d[k] = default， 然 后 返 
[=] default 

实现 dik] = v 操作 ， 把 k 对 应 的 值 设 为 v 


































































































新 d 里 对 应 的 条 目 
返回 字典 里 的 所 有 值 




















# default_factory 并 不 是 一 个 方法 ， 而 是 一 个 可 调用 对 象 (callable)， 它 的 值 在 defaultdict 初始 化 的 时 候 


由 用 户 设 定 。 
# OrderedDict.popi 





tem() 会 移 除 字典 里 最 先 插入 的 元 素 (AHAB) ; 


参数 ， 若 为 真 ， 则 会 移 除 最 后 插入 的 元 素 (后 进 先 出 ) 。 


上 面 的 表格 中 ，update 方法 处 到 




















同时 这 个 方法 还 有 一 个 可 选 的 last 


参数 m 的 方式 ， 是 典型 的 “了 鸭子 类 型 ”。 国 数 首先 检查 m 


是 否 有 keys Hk, WRA, JBA update 函数 就 把 它 当 作 映 射 对 象 来 处 理 。 否 则 ， 函 数 会 
退 一 步 ， 转 而 把 m 当 作 包 含 了 键 值 对 (key，value) 元 素 的 迭代 器 。Python 里 大 多 数 映射 类 
型 的 构造 方法 都 采用 了 类 似 的 逻辑 ， 因 此 你 既 可 以 用 一 个 映射 对 象 来 新 建 一 个 映射 对 象 ， 
也 可 以 用 包含 (key，value) 元 素 的 可 迭代 对 象 来 初始 化 一 个 映射 对 象 。 


在 映射 对 象 的 方法 里 ，setdefault 可 能 是 比较 微妙 的 一 个 。 我 们 虽然 并 不 会 每 次 都 用 它 ， 
但 是 一 旦 它 发 挥 作用 ， 就 可 以 市 省 不 少 次 键 查询 ， 从 而 让 程序 更 高 效 。 如 果 你 对 它 还 不 熟 


X 


w’ 


下 面 我 会 通过 一 个 实例 来 讲解 它 的 用 法 。 

















用 setdefault 处 理 找 不 到 的 键 


HFH d[k] 不 能 找到 正确 的 键 的 时 候 ，Python 会 抛 出 异常 ， 这 个 行为 符合 Python 所 信奉 的 
“快速 失败 ”和 哲学。 也许 每 个 Python 程序 员 都 知道 可 以 用 d.get(k, default) 来 代替 d[k]， 
给 找 不 到 的 键 一 个 默认 的 返回 值 ( 这 比 处 理 KeyError 要 方便 不 少 )。 但 是 要 更 新 某 个 键 对 应 
的 值 的 时 候 ， 不 管 使 用 __getitem_ 还 是 get 都 会 不 自然 ， 而 且 效 率 低 。 就 像 示 例 3-2 中 的 
还 没有 经 过 优化 的 代码 所 显示 的 那样 ，dict.get 并 不 是 处 理 找 不 到 的 键 的 最 好 方法 。 


示例 3-2 是 由 Alex Martelli 举 的 一 个 例子 ”变化 而 来 ,例子 生成 的 索引 跟 示 例 3-3 显示 的 一 样 。 


示例 3-2 index9.py 这 段 程序 从 索引 中 获取 单词 出 现 的 频率 信息 ， 并 把 它们 写 进 对 应 的 
列表 里 (更 好 的 解决 方案 在 示例 3-4 中 ) 
""" 创 建 一 个 从 单词 到 其 出 现 情况 的 映射 """ 
































import sys 
import re 


WORD_RE = re.compile(r'\w+') 


index = {} 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 

word = match.group() 
column_no = match.start()+1 
location = (line_no, column_no) 
# 这 其 实 是 一 种 很 不 好 的 实现 ,这 样 写 只 是 为 了 证 明 论点 
occurrences = index.get(word, []) © 
occurrences.append( location) 

















index[word] = occurrences © 
# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): (4) 


print(word, index[word]) 


@ 提取 word 出 现 的 情况 ， 如 果 还 没有 它 的 记录 ， 返 回 []。 

O 把 单词 新 出 现 的 位 置 添加 到 列表 的 后 面 。 

© 把 新 的 列表 放 回 字典 中 ， 这 又 牵扯 到 一 次 查询 操作 。 

Q sorted 函数 的 key= 参数 没有 调用 str.upper， 而 是 把 这 个 方法 的 引用 传递 给 sorted pA 
数 ， 这 样 在 排序 的 时 候 ， 单 词 会 被 规范 成 统一 格式 。: 









































示例 3-3 这 里 是 示例 3-2 的 不 完全 输出 ， 每 一 行 的 列表 都 代表 一 个 单词 的 出 现 情况 ， 列 
表 中 的 元 素 是 一 对 值 ， 第 一 个 值 表示 出 现 的 行 ， 第 二 个 表示 出 现 的 列 


$ python3 index0.py ../../data/zen.txt 











注 2: 示例 代码 出 现在 Martelli 的 演讲 “Re-learning python” 中 (38 41 SK AIT Hr, http:/Avww.aleax.it/Python/ 
accu04_Relearn_Python_alex.pdf), ， 他 的 代码 被 我 放 在 了 示例 3-4 中 ， 代 码 很 好 地 展示 了 dict.setdefault 
的 用 法 。 

注 3: 这 是 将 方法 用 作 一 等 函数 的 一 个 示例 ， 第 5 章 会 谈 到 这 一 点 。 











a [(19, 48), (20, 53)] 

Although [(11, 1), (16, 1), (18, 1)] 
ambiguity [(14, 16)] 

and [(15, 23)] 

are [(21, 12)] 

aren [(10, 15)] 

at [(16, 38)] 

bad [(19, 50)] 

be [(15, 14), (16, 27), (20, 50)] 
beats [(11, 23)] 

Beautiful [(3, 1)] 

better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), 
(17, 8), (18, 25)] 

















示例 3-2 里 处 理 单词 出 现 情况 的 三 行 ， 通 过 dict.setdefault 可 以 只 用 一 行 解决 。 示 例 3-4 
更 接近 Alex Martelli 自己 举 的 例子 。 
示例 3-4 index.py 用 一 行 就 解决 了 获取 和 更 新 单词 的 出 现 情况 列表 ， 当 然 跟 示例 3-2 不 
一 样 的 是 ， 这 里 用 到 了 dict.setdefault 
"" "创建 从 一 个 单词 到 其 出 现 情况 的 映射 ""”" 

















import sys 
import re 


WORD_RE = re.compile(r'\w+') 


index = {} 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 

word = match.group() 
column_no = match.start()+1 
location = (line_no, column_no) 
index.setdefault(word, []).append(location) @ 


# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): 
print(word, index[word]) 


O 获取 单词 的 出 现 情况 列表 ， 如 果 单 词 不 存在 ， 把 单词 和 一 个 空 列表 放 进 映射 ， 然 后 返回 
这 个 空 列表 ， 这 样 就 能 在 不 进行 第 二 次 查找 的 情况 下 更 新 列表 了 。 
也 就 是 说 ， 这 样 写 : 
my_dict.setdefault(key, []).append(new_value) 
跟 这 样 写 : 


if key not in my_dict: 
my_dict[key] = [] 
my_dict[key].append(new_vaLue) 


二 者 的 效果 是 一 样 的 ， 只 不 过 后 者 至 少 要 进行 两 次 键 查询 














如 果 键 不 存在 的 话 ， 就 是 三 
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次 ， 用 setdefault 只 需要 一 次 就 可 以 完成 整个 操作 。 





那么 ， 在 单纯 地 查找 取 值 














键 呢 ? 





(而 不 是 通过 查找 来 插入 新 值 ) 的 时 候 ， 该 怎么 处 理 找 不 到 的 








I 





3.4 有 映射 的 弹性 键 查 询 


有 时 候 为 了 方便 起 见 ， 就 算 茶 个 键 在 映射 9 




















有 不 存在 ， 我 们 也 希望 在 通过 这 个 键 读 取 值 的 


时 候 能 得 到 一 个 默认 值 。 有 两 个 途径 能 帮 我 们 达到 这 个 目的 ， 一 个 是 通过 defaultdict 这 
个 类 型 而 不 是 普通 的 dict， 另 一 个 是 给 自己 定义 一 个 dict 的 子 类 ， 然 后 在 子 类 中 实现 
missing__ 方 法。 下 面 将 介绍 这 两 种 方法 。 


3.4.1 defaultdict: 处 理 找 不 到 的 键 的 一 个 选择 























示例 3-5 在 collections.defaultdict 的 帮助 下 优雅 地 解决 了 示例 3-4 E 
建 defauttdict 对 象 的 时 候 ， 就 需要 给 它 配置 一 个 为 找 不 到 的 键 创 造 默认 值 的 方法 。 











的 问题 。 在 用 户 创 


具体 而 言 ， 在 实例 化 一 个 defaultdict 的 时 候 ， 需 要 给 构造 方法 提供 一 个 可 调用 对 象 ， 这 


个 可 调用 对 象 会 在 _getitem__” 磁 到 找 不 到 的 键 的 时 候 被 调用 ， 让 _getitem__ik El 


默认 值 。 








某 种 


比如 ， 我 们 新 建 了 这 样 一 个 字典 : dd = defaultdict(list)， 如 果 键 'new-key' 在 dd 中 还 
不 存在 的 话 ， 表 达 式 dd['new-key'] 会 按照 以 下 的 步骤 来 行事 。 
(1) 调用 List() 来 建立 一 个 新 列表 。 

(2) 把 这 个 新 列表 作为 值 ，'new-key' 作为 它 的 键 ， 放 到 dd 中 。 











(3) 返 回 这 个 列表 的 引用 。 


而 这 个 用 来 生成 默认 值 的 可 调用 对 象 存放 在 名 为 default_factory 的 实例 属性 里 。 








示例 3-5 index_default.py: 利用 defaultdict 实例 而 不 是 setdefault 方法 








""" 创 建 一 个 从 单词 到 





import sys 
import re 
import collections 


LJ 
Hi 





H 现 情况 的 映射 "”" 


WORD_RE = re.compile(r'\w+') 


index = collections.defaultdict(list) (1) 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 

word = match.group() 

column_no = match.start()+1 
location = (line_no, column_no) 
index[word].append(location) @ 








# 以 字母 顺序 打印 出 结果 








for word in sorted(index, key=str.upper): 
print(word, index[word]) 


@ 把 list 构造 方法 作为 default_factory 来 创建 一 个 defaultdict。 

O 如 果 index 并 没有 word 的 记录 ， 那 么 default_factory 会 被 调用 ， 为 查询 不 到 的 键 创 造 
一 个 值 。 这 个 值 在 这 里 是 一 个 空 的 列表 ， 然 后 这 个 空 列表 被 赋值 给 index[word], ， 继 而 
被 当 作 返回 值 返回 ， 因 此 .append(Location) 操作 总 能 成 功 。 


如 果 在 创建 defauttdict 的 时 候 没 有 指定 default_factory， 查 询 不 存在 的 键 会 触发 


KeyError。 











defaultdict 里 的 default_factory RAE _ getitem_ 里 被 调用 ， 在 其 他 的 
方法 里 完全 不 会 发 挥 作用 。 比 如 ，dd 是 个 defaultdict, k 是 个 找 不 到 的 键 ， 
dd[k] 这 个 表达 式 会 调用 default_factory 创造 茶 个 默认 值 ， 而 dd.get(k) W 
会 返回 None。 





























所 有 这 一 切 背 后 的 功臣 其 实 是 特殊 方法 _missing_。 它 会 在 defaultdict 遇 到 找 不 到 的 键 
的 时 候 调 用 default_factory， 而 实际 上 这 个 特性 是 所 有 了 映射 类 型 都 可 以 选择 去 支持 的 。 


3.4.2 ”特殊 方法 _ missing _ 

所 有 的 映射 类 型 在 处 理 找 不 到 的 键 的 时 候 ， 都 会 牵扯 到 _missing_ 方法 。 这 也 是 这 个 方法 
称 作 “missing” 的 原因 。 虽 然 基 类 dict 并 没有 定义 这 个 方法 ， 但 是 dict 是 知道 有 这 么 个 
东西 存在 的 。 也 就 是 说 ， 如 果 有 一 个 类 继承 了 dict， 然 后 这 个 继承 类 提供 了 missin Y 
法 ， 那 么 在 _getitem_ 磁 到 找 不 到 的 键 的 时 候 ，Python 就 会 自动 调用 它 ， 而 不 是 抛 出 一 个 
KeyError 异常 。 
































__missing__ 方法 只 会 被 _getitem_ 调 用 (比如 在 表达 式 dik] 中 )。 提 供 
_missing_ ”方法 对 get 或 者 _contains_ (in 运算 符 会 用 到 这 个 方法 ) 这 些 
方法 的 使 用 没有 影响 。 这 也 是 我 在 上 一 节 最 后 的 警告 中 提 到 ，defauLtdict 中 
的 default_factory 只 对 __getitem ”有 作用 的 原因 。 














有 了 时候 ， 你 会 希望 在 查询 的 时 候 ， 映 射 类 型 里 的 键 统统 转换 成 str。 为 可 编程 电路 板 ( 像 
Raspberry Pi 或 Arduino’) 准备 的 Pingo.io (http://www.pingo.io/docs/) 项 目 里 就 有 具体 的 例 
子 。 在 Pingo.io 里 ， 电 路 板 上 的 GPIO 针脚 以 board.piins 为 名 ,封装 在 名 为 board 的 对 象 
里 。board.pins 是 一 个 映射 类 型 ， 其 中 键 是 针脚 的 物理 位 置 ， 它 可 能 只 是 一 个 数字 或 字符 
HH, Een "ao" 或 "P9_12"; 值 则 是 针脚 连接 的 东西 。 为 了 保持 一 臻 性， 我们 希望 board. 
pins 的 键 只 能 是 字符 串 ， 但 是 为 了 方便 查询 ，my_arduino.pins[13] 也 是 可 行 的 ， 这 样 可 以 




















注 4: Raspberry Pi 是 一 个 集成 到 巴掌 大 小 的 板子 上 的 电脑 。Arduino 则 是 一 种 可 以 在 烧 录 程序 的 同时 ， 连 
接 上 各 种 传感器 ， 用 以 跟 物 理 世界 交互 的 电路 板 。 更 多 的 相关 信息 可 以 在 https://www.raspberrypi.org/ 
和 https:Wwww.arduino.cc/ 上 找到 。 一 一 译 者 注 

注 5: 通用 输入 输出 针脚 ， 用 来 跟 传 感 器 或 其 他 设备 用 数据 互动 。 一 一 译 者 注 
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帮 Arduino 的 初级 玩家 快速 找到 第 13 个 针脚 上 的 LED 灯 。 示 例 3-6 展示 了 这 样 的 一 个 映 
射 是 怎么 运行 的 。 


示例 3-6 ” 当 有 非 字符 串 的 键 被 查找 的 时 候 ，StrkeyDictg 是 如 何在 该 键 不 存在 的 情况 下 ， 
把 它 转换 为 字符 串 的 


Tests for item retrieval using ‘d[key]* notation:: 


>>> d = StrKeyDictO([('2', 'two'), ('4', 'four')]) 
>>> d['2'] 

'two' 

>>> d[4] 

'four' 

>>> d[1] 

Traceback (most recent call last): 


KeyError: '1' 
Tests for item retrieval using `d.get(key)` notation: : 


>>> d.get('2') 
'two' 

>>> d.get(4) 

'four' 

>>> d.get(1, 'N/A') 
'N/A' 


Tests for the ‘in’ operator:: 
>>> 2 ind 
True 


>>> 1 ind 
False 


示例 3-7 则 实现 了 上 面 例子 里 的 StrKeyDicto 类 。 





如 果 要 自 定 义 一 个 映射 类 型 ， 更 合适 的 策略 其 实 是 继承 collections. 
UserDict 类 (示例 3-8 就 是 如 此 )。 这 里 我 们 从 dict 继承 ， 只 是 为 了 演示 
__missing__ 是 如 何 被 dict.__getitem__ 调用 的 。 











示例 3-7 StrKeydicto 在 查询 的 时 候 把 非 字符 串 的 键 转换 为 字符 串 


class StrKeyDictO(dict): © 





def _ missing (self, key): 
if isinstance(key, str): @ 
raise KeyError(key) 
return self[str(key)] © 


def get(self, key, default=None): 
try: 
return self[key] @ 





except KeyError: 
return default ©@ 


def _ contains (self, key): 
return key in self.keys() or str(key) in self.keys() @ 


@ StrkeyDicto 继承 了 dict, 

O 如 果 找 不 到 的 键 本 身 就 是 字符 串 ， 那 就 抛 出 KeyError 异常 。 

O 如 果 找 不 到 的 键 不 是 字符 串 ， 那 么 把 它 转换 成 字符 串 再 进行 查找 。 

O set 方法 把 查找 工作 用 self[key] 的 形式 委托 给 setite, 这 样 在 宣布 查找 失败 之 
前 ， 还 能 通过 _missing__ 再 给 某 个 键 一 个 机 会 。 

© 如 果 抛 出 KeyError ， 那 么 说 明 missing 也 失败 了 ， 于 是 返回 default, 

O 先 按照 传 入 键 的 原本 的 值 来 查找 (我 们 的 映射 类 型 中 可 能 含有 非 字 符 串 的 键 ) ， 如 果 没 
找到 ， 再 用 str() 方法 把 键 转换 成 字符 串 再 查找 一 次 。 


下 面 来 看 看 为 什么 isinstance(key, str) 测试 在 上 面 的 _nissing__ 中 是 必需 的 。 


如 果 没 有 这 个 测试 ， 只 要 str(k) 返回 的 是 一 个 存在 的 键 ， 那 么 missing “方法 是 设 问 题 
的 ， 不 管 是 字符 串 键 还 是 非 字 符 串 键 ， 它 都 能 正常 运行 。 但 是 如 果 str(k) 不 是 一 个 存在 的 
键 ， 代 码 就 会 陷入 无 限 递归 。 这 是 因为 missing__ 的 最 后 一 行 中 的 self[str(key)] 会 调 
用 __getitem _， 而 这 个 str(key) 又 不 存在 ， 于 是 _missing__ 又 会 被 调用 。 

为 了 保持 一 致 性 ，_contatins “方法 在 这 里 也 是 必需 的 。 这 是 因为 k in d 这 个 操作 会 调用 
它 ， 但 是 我 们 从 dict 继承 到 的 __contains__ 方法 不 会 在 找 不 到 键 的 时 候 调 用 missing 
方法 。__contains__ 里 还 有 个 细节 ， 就 是 我 们 这 里 没有 用 更 具 Python 风格 的 方式 一 一 k in 
my_dict 一 一 来 检查 键 是 否 存在 ， 因 为 那 也 会 导致 contains 被 递归 调用 。 为 了 避免 这 
一 情况 ， 这 里 采取 了 更 显 式 的 方法 ， 直 接 在 这 个 self .keys() 里 查询 。 


(Rk in my_dict.keys() 这 种 操作 在 Python 3 中 是 很 快 的 ， 而 且 即 便 映射 类 型 
对 象 很 庞大 也 没关系 。 这 是 因为 dict.keys() 的 返回 值 是 一 个 “视图 "。 视 图 
就 像 一 个 集合 ， 而 且 跟 字典 类 似 的 是 ， 在 视图 里 查找 一 个 元 素 的 速度 很 快 。 在 
“Dictionary view objects” (https://docs.python.org/3/library/stdtypes.html#dictionary- 
view-objects) 里 可 以 找到 关于 这 个 细节 的 文档 。Python 2 的 dict.keys() 返回 
的 是 个 列表 ， 因 此 虽然 上 面 的 方法 仍然 是 正确 的 ， 它 在 处 理 体 积 大 的 对 象 的 时 
候 效率 不 会 太 高 ， 因 为 k in my_list 操作 需要 扫描 整个 列表 。 








































































































出 于 对 准确 度 的 考虑 ， 我 们 也 需要 这 个 按照 键 的 原本 的 值 来 查找 的 操作 (也 就 是 key in 
selLf.keys()) ， 因 为 在 创建 StrKeyDicto 和 为 它 添 加 新 值 的 时 候 ， 我 们 并 设 有 强制 要 求 传 入 
的 键 必 须 是 字符 串 。 因 为 这 个 操作 没有 规定 死 键 的 类 型 ， 所 以 让 查找 操作 变 得 更 加 友好 。 
好 了 ， 我 们 已 经 见识 过 dict 和 defaultdict 了 。 但 是 标准 库 里 面 还 有 很 多 其 他 的 映射 类 
型 ， 下 面 就 来 看 看 。 























mm 7i 
3.5 字典 的 变种 
这 一 节 总 结 了 标准 库 里 collections 模块 中 ， 除 了 defaultdict 之 外 的 不 同 映射 类 型 。 
collections.OrderedDict 


这 个 类 型 在 添加 键 的 时 候 会 保持 顺序 ， 因 此 键 的 迭代 次 序 总 是 一 致 的 。0OrderedDict 
的 popiten 方法 默认 删除 并 返回 的 是 字典 里 的 最 后 一 个 元 素 ， 但 是 如 果 像 my_odict. 
popitem(Last=False) 这 样 调用 它 ， 那 么 它 删除 并 返回 第 一 个 被 添加 进去 的 元 素 。 


collections.ChainMap 


该 类 型 可 以 容纳 数 个 不 同 的 映射 对 象 ， 然 后 在 进行 键 查找 操作 的 时 候 ， 这 些 对 象 会 被 当 
作 一 个 整体 被 逐个 查找 ， 直 到 键 被 找到 为 止 。 这 个 功能 在 给 有 髓 套 作 用 域 的 语言 做 解 
释 器 的 时 候 很 有 用 ， 可 以 用 一 个 映射 对 象 来 代表 一 个 作用 域 的 上 下 文 。 在 collections 
文档 介绍 ChainMap 对 象 的 那 一 部 分 (https://docs.python.org/3/library/collections.html# 
collections.ChainMap) 里 有 一 些 具体 的 使 用 示例 ， 其 中 包含 了 下 面 这 个 Python 变量 查 
询 规 则 的 代码 片段 : 


import builtins 
pylookup = ChainMap(locals(), globals(), vars(builtins)) 























collections.Counter 


这 个 映射 类 型 会 给 键 准 备 一 个 整数 计数 器 。 每 次 更 新 一 个 键 的 时 候 都 会 增加 这 个 计数 
器 。 所 以 这 个 类 型 可 以 用 来 给 可 散 列 表 对 象 计数 ， 或 者 是 当成 多 重 集 来 用 一 一 多 重 集合 
就 是 集合 里 的 元 素 可 以 出 现 不 止 一 次 。Counter 实现 了 + 和 - 运算 符 用 来 合并 记录 ， 还 
有 像 most_common([n]) 这 类 很 有 用 的 方法 。most_common([n]) 会 按照 次 序 返回 映射 里 最 
常见 的 n 个 键 和 它们 的 计数 ， 详 情 参 阅 文 档 (https://docs.python.org/3/library/collections. 
html#collections.Counter) 。 下 面 的 小 例子 利用 Counter 来 计算 单词 中 各 个 字母 出 现 的 次 数 : 


>>> ct = COLLections.Counter('abracadabra ) 

>>> ct 

Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1}) 

>>> ct.update('aaaaazzz') 

>>> ct 

Counter({'a': 10, 'z': 3, 'b': 2, 'r': 2, 'c': 1, 'd': 1}) 
>>> ct.most_common(2) 


[Ca', 10), ('z', 3)] 


















































colllections.UserDict 
这 个 类 其 实 就 是 把 标准 dict 用 纯 Python 又 实现 了 一 遍 。 
跟 OrderedDict, ChainMap 和 Counter 这 些 开 箱 即 用 的 类 型 不 同 ，UserDict 是 让 用 户 继承 写 
子 类 的 。 下 面 就 来 试 试 。 
3.6 子 类 化 UserDict 
就 创造 自 定 义 映射 类 型 来 说 ， 以 UserDict 为 基 类 ， 总 比 以 普通 的 dict 为 基 类 要 来 得 方便 。 
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这 体现 在 ， 我们 能 够 改进 示例 3-7 中 定义 的 StrKeyDicto 类 ， 使 得 所 有 的 键 都 存储 为 字符 
PRW, 


而 更 倾向 于 从 UserDict 而 不 是 从 dict 继承 的 主要 原因 是 ， 后 者 有 时 会 在 某 些 方法 的 实现 
上 走 一 些 捷径 ， 导 致 我 们 不 得 不 在 它 的 子 类 中 重 写 这 些 方 法 ， 但 是 UserDict 就 不 会 带 来 这 
些 问 题 。 

另外 一 个 值得 注意 的 地 方 是 ，UserDict 并 不 是 dict 的 子 类 ， 但 是 UserDict 有 一 个 叫 作 
data 的 属性 ， 是 dict 的 实例 ， 这 个 属性 实际 上 是 UserDict 最 终 存储 数据 的 地 方 。 这 样 做 
的 好 处 是 ， 比 起 示例 3-7, UserDict 的 子 类 就 能 在 实现 __setitem__ 的 时 候 避 免 不 必 要 的 递 
归 ， 也 可 以 让 contains _ 里 的 代码 更 简洁 。 

Z5 T UserDict, 示例 3-8 里 的 StrKeyDict 的 代码 比 示 例 3-7 里 的 StrKeyDicto 要 短 一 些 ， 
功能 却 更 完善 : 它 不 但 把 所 有 的 键 都 以 字符 串 的 形式 存储 ， 还 能 处 理 一 些 创建 或 者 更 新 实 
例 时 包含 非 字符 串 类 型 的 键 这 类 意外 情况 。 


示例 3-8 ”无论 是 添加 、 更 新 还 是 查询 操作 ，StrkeyDict 都 会 把 非 字 符 串 的 键 转换 为 字符 串 


import collections 























class StrKeyDict(collections.UserDict): @ 


def __missing (self, key): @ 
if isinstance(key, str): 
raise KeyError(key) 
return self[str(key) ] 


def __contains__ (self, key): 
return str(key) in self.data © 


def _ setitem (self, key, item): 
self .data[str(key)] = item @ 


@ StrkeyDict 是 对 UserDict 的 扩展 。 

@ _missing_” 跟 示例 3-7 里 的 一 模 一 样 。 

© contains 则 更 简洁 些 。 这 里 可 以 放心 假设 所 有 已 经 存储 的 键 都 是 字符 串 。 因 此 ，5 
要 在 self.data 上 查询 就 好 了 ， 并 不 需要 像 StrKeyDict9 那样 去 麻烦 seLf.keys()。 

O _setitem__ 会 把 所 有 的 键 都 转换 成 字符 串 。 由 于 把 具体 的 实现 委托 给 了 self.data 属 
性 ， 这 个 方法 写 起 来 也 不 难 。 

因为 UserDict 继承 的 是 MutableMapping， 所 以 StrKeyDict 里 剩 下 的 那些 映射 类 型 的 方法 

都 是 从 UserDict, MutableMapping 和 Mapping 这 些 超 类 继承 而 来 的 。 特 别 是 最 后 的 Mapping 

类 ， 它 虽然 是 一 个 抽象 基 类 (ABC), 但 它 却 提供 了 好 几 个 实用 的 方法 。 以 下 两 个 方法 值 

得 关注 。 








O 





d 




















MutableMapping.update 
这 个 方法 不 但 可 以 为 我 们 所 直接 利用 ， 它 还 用 在 init 里 ， 让 构造 方法 可 以 利用 传 











注 6: 关于 从 dict 或 者 其 他 内 置 类 继承 到 底 有 什么 不 好 ， 详 见 12.1 市 。 
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入 的 各 种 参数 (其 他 映射 类 型 、 元 素 是 (key, value) 对 的 可 返 代 对 象 和 键 值 参数 ) 来 
新 建 实例 。 因 为 这 个 方法 在 背后 是 用 seLf[key] = value 来 添加 新 值 的 ， 所 以 它 其 实 是 
在 使 用 我 们 的 __setitem_ Frid. 
Mapping.get 

在 StrKeyDicto (示例 3-7) 中 ， 我 们 不 得 不 改写 get 方 法 好 让 它 的 表现 跟 
__getitem_ 一致。 而 在 示例 3-8 中 就 没 这 个 必要 了 ， 因 为 它 继承 了 Mapping.get 方法 ， 
而 Python 的 源码 (https://hg.python.org/cpython/file/3.4/Lib/_collections_abc.py#1422) 显 
示 ， 这 个 方法 的 实现 方式 跟 StrKkeyDict9.get 是 一 模 一 样 的 。 




















在 写 完 StrKeyDict 这 个 类 之 后 ， 我 读 到 了 Antonie Pitrou 写 的 “PEP 455 一 
Adding a key-transforming dictionary to collections” (https://www.python.org/ 
dev/peps/pep-0455/) 。 文 章 附带 的 补丁 里 包含 了 一 个 叫 作 TransformDict 的 
新 类 型 。 这 个 补丁 通过 issue 18986 (http://bugs.python.org/issue18986) 被 吸 
收 进 了 Python 3.5, 为 了 试 试 这 个 类 ， 我 把 它 提取 出 来 放 进 了 一 个 单独 的 
模块 (在 本 书 代 码 仓 库 中 : 03-dict-set/transformdict.py, https://github.com/ 
fluentpython/example-code/blob/master/03-dict-set/transformdict.py)。 比 起 
StrKeyDict, TransformDict 的 通用 性 更 强 ， 也 更 复杂 ， 因 为 它 把 键 存 成 字符 
串 的 同时 ， 还 要 按照 它 原来 的 样子 存 一 份 。 














之 前 我 们 见识 过 了 不 可 变 的 序列 类 型 ， 那 有 没有 不 可 变 的 字典 类 型 呢 ? 这 么 说 吧 ， 在 标准 
库 里 是 没有 这 样 的 类 型 的 ， 但 是 可 以 用 替身 来 代替 。 


3.7 不 可 变 映 射 类 型 


标准 库 里 所 有 的 映射 类 型 都 是 可 变 的 ， 但 有 时 候 你 会 有 这 样 的 需求 ， 比 如 不 能 让 用 户 错误 
地 修改 某 个 映射 。3.4.2 节 提 到 过 Pingo.io， 它 里 面 就 有 个 现成 的 例子 。Pingo.io 里 有 个 映 
射 的 名 字 叫 作 board.pins, 里 面 的 数据 是 GPIO 物理 针脚 的 信息 ， 我 们 当然 不 希望 用 户 一 
个 玻 忽 就 把 这 些 信息 给 改 了 。 因 为 硬件 方面 的 东西 是 不 会 受 软件 影响 的 ， 所 以 如 果 把 这 个 
映射 里 的 信息 改 了 ， 就 跟 物理 上 的 元 件 对 不 上 号 了 。 


从 Python 3.3 开始 ，types 模块 中 引入 了 一 个 封装 类 名 叫 MappingProxyType。 如 果 给 这 个 类 
一 个 映射 ， 它 会 返回 一 个 只 读 的 映射 视图 。 虽 然 是 个 只 读 视 图 ， 但 是 它 是 动态 的 。 这 意 
着 如 果 对 原 映 射 做 出 了 改动 ， 我 们 通过 这 个 视图 可 以 观察 到 ， 但 是 无 法 通过 这 个 视图 对 原 
映射 做 出 修改 。 示 例 3-9 简短 地 对 这 个 类 的 用 法 做 了 个 演示 。 


示例 3-9 用 MappingProxyType 来 获取 字典 的 只 读 实 例 mappingproxy 
>>> from types import MappingProxyType 
>>> d = {1:'A'} 
>>> d_proxy = MappingProxyType(d) 





















































TE 7: 译 者 浏览 http://bugs.python.org/issue18986 后 发 现 这 个 PEP 最 终 被 关闭 ， 相 应 的 补丁 也 没有 被 吸 
收 进 Python 3.5。 有 兴趣 的 读者 可 以 通过 这 个 链接 看 看 它 被 拒绝 的 原因 : http://bugs.python.org/ 
issue18986#msg243370。 一 一 译 者 注 
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>>> d_proxy 

mappingproxy({1: 'A'}) 

>>> d_proxy[1] © 

'A' 

>>> d_proxy[2] = 'x' @ 

Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 

TypeError: 'mappingproxy' object does not support item assignment 

>>> d[2] = 'B' 

>>> d_proxy © 

mappingproxy({1: 'A', 2: 'B'}) 

>>> d_proxy[2] 

'B， 


>>> 


O dd 中 的 内 容 可 以 通过 d_proxy 看 到 。 

O 但 是 通过 d_proxy 并 不 能 做 任何 修改 。 

© d_proxy 是 动态 的 ， 也 就 是 说 对 d 所 做 的 任何 改动 都 会 反馈 到 它 上 面 。 
因此 在 Pingo.io 中 我 们 是 这 样 用 它 的 : Board 的 具体 子 类 会 提供 一 个 包含 针脚 信息 的 私有 
映射 成 员 ， 然 后 通过 公开 属性 .pins 把 这 个 映射 暴露 给 API 的 客户 ， 而 pins 属性 其 实 就 
是 用 mappingproxy 实现 的 。 一 旦 这 样 写 好 了 ， 客 户 就 不 能 对 这 个 映射 进行 任何 意外 的 添 


加 、 








移 除 或 者 修改 操作 。 * 


到 了 这 里 ， 我 们 对 标准 库 中 的 大 多 数 映射 类 型 都 有 了 一 些 了 解 ， 下 面 让 我 们 移 步 到 集合 
类 型 。 


3.8 集合 论 
“ 集 ” 这 个 概念 在 Python 中 算是 比较 年 轻 的 ， 同 时 它 的 使 用 率 也 比较 低 。set 和 它 的 不 可 


变 的 姊妹 类 型 frozenset 直到 Python 2.3 才 首 次 以 模块 的 形式 








它们 升级 成 为 内 置 类 型 。 


本 书 中 “ 集 ” 或 者 “集合 ” 既 指 set， 也 指 frozenset。 当 “ 集 ” 仅 指 代 set 











类 时 ， 我 会 用 等 宽 字体 表示 "。 





集合 的 本 质 是 许多 唯一 对 象 的 聚集 。 因 此 ， 集 合 可 以 用 于 去 重 : 

















>>> l = ['spam', 'spam', 'eggs', 'spam'] 
>>> set(1) 

{'eggs', 'spam'} 

>>> list(set(1)) 

['eggs', 'spam'] 






































H 现 ， 然 后 在 Python 2.6 中 








注 8: 为 了 照顾 Python 2.7， 现 实 中 的 Pingo.io 没有 借用 MappingProxyType 来 实现 这 个 功能 ， 因 为 它 只 在 
Python 3.3 里 才 有 。 

注 9:“ 集 ”在 英文 中 就 是 set， 因 此 原 书 中 需要 用 等 宽 字 体 来 区 分 特 指 和 泛 指 。 一 一 编者 注 
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集合 中 的 元 素 必 须 是 可 散 列 的 ，set 类 型 本 身 是 不 可 散 列 的 ， 但 是 frozenset 可 以 。 因 此 
可 以 创建 一 个 包含 不 同 frozenset 的 set。 


除了 保证 唯一 性 ， 集 合 还 实现 了 很 多 基础 的 中 级 运算 符 。 给 定 两 个 集合 a 和 b,，a | pb 返回 
的 是 它们 的 合集 ，a & b 得 到 的 是 交集 ， 而 a - b 得 到 的 是 差 集 。 合 理 地 利用 这 些 操 作 ， 不 仅 
能 够 让 代码 的 行 数 变 少 ， 还 能 减少 Python 程序 的 运行 时 间 。 这 样 做 同时 也 是 为 了 让 代码 更 易 
读 ， 从 而 更 容易 判断 程序 的 正确 性 ， 因 为 利用 这 些 运算 符 可 以 省 去 不 必要 的 循环 和 人 逻辑 操作 。 
例如 ， 我 们 有 一 个 电子 邮件 地 址 的 集合 (haystack)， 还 要 维护 一 个 较 小 的 电子 邮件 地 址 集 
合 (needles)， 然 后 求 出 needles 中 有 多 少 地 址 同时 也 出 现在 了 heystack 里 。 借 助 集合 操 
作 ， 我 们 只 需要 一 行 代码 就 可 以 了 ( 见 示例 3-10). 


示例 3-10 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 两 个 变量 都 是 set 类 型 
found = len(needles & haystack) 


如 果 不 使 用 交集 操作 的 话 ， 代 码 可 能 就 变 成 了 示例 3-11 里 那样 。 
示例 3-11 needles 的 元 素 在 haystack 里 出 现 的 次 数 (作用 和 示例 3-10 中 的 相同 ) 


found = 0 
for n in needles: 
if n in haystack: 
found += 1 


示例 3-10 比 示例 3-11 的 速度 要 快 一 些 ， 另 一 方面 ， 示 例 3-11 A A ECE YR RR 


needles 和 haystack 上 ， 而 示例 3-10 则 要 求 两 个 对 象 都 是 集合 。 话 再 说 回来 ， 就 算 手 头 没 
有 集合 ， 我 们 也 可 以 随时 建立 集合 ， 如 示例 3-12 所 示 。 


示例 3-12 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 这 次 的 代码 可 以 用 在 任何 可 过 代 对 
象 上 


found = len(set(needles) & set(haystack)) 





















































found = len(set(needles).intersection(haystack)) 
示例 3-12 里 的 这 种 写法 会 牵扯 到 把 对 象 转化 为 集合 的 成 本 ， 不 过 如 果 needles 或 者 是 haystack 
中 任意 一 个 对 象 已 经 是 集合 ， 那 么 示例 3-12 的 方案 可 能 就 比 示例 3-11 里 的 要 更 高 效 。 
以 上 的 所 有 例子 的 运行 时 间 都 能 在 3 毫秒 左右 ， 在 含有 10 000 000 个 元 素 的 haystack 里 搜 
索 1000 个 值 ， 算 下 来 大 概 是 每 个 元 素 3 微 秒 。 
除了 速度 极 快 的 查找 功能 〈 这 也 得 归功 于 它 背 后 的 散 列 表 ) ， 内 置 的 set 和 frozenset 提供 
了 丰富 的 功能 和 操作 ， 不 但 让 创建 集合 的 方式 丰富 多 彩 ， 而 且 对 于 set 来 讲 ， 我 们 还 可 以 
对 集合 里 已 有 的 元 素 进 行 修改 。 在 讨论 这 些 操作 之 前 ， 先 来 看 一 下 相关 的 句法 。 


3.8.1 合 字 面 量 
除 空 集 之 外 ， 集 合 的 字面 量 一 一 {1}、{1，2}， 等 等 一 一 看 起 来 跟 它 的 数学 形式 一 模 一 样 。 
如 果 是 空 集 ， 那 么 必须 写成 set() 的 形式 。 














句法 的 陷阱 
不 要 忘 了 ， 如 果 要 创建 一 个 空 集 ， 你 必须 用 不 带 任何 参数 的 构造 方法 set()。 
如 果 只 是 写成 { 的 形式 ， 跟 以 前 一 样 ， 你 创建 的 其 实 是 个 空 字典 。 

















在 Python 3 里 面 ， 除 了 空 集 ， 集 合 的 字符 串 表示 形式 总 是 以 {…]} 的 形式 出 现 。 


>>> s = {1} 
>>> type(s) 
<class 'set'> 
>>> S 

{1} 

>>> s.pop() 

1 

>>> S 

set() 


fR {1, 2, 3} 这 种 字面 量 句法 相 比 于 构造 方法 (set([1, 2, 3])) 要 更 快 且 更 易 读 。 后 者 的 
速度 要 慢 一 些 ， 因 为 Python 必须 先 从 set 这 个 名 字 来 查询 构造 方法 ， 然 后 新 建 一 个 列表 ， 
最 后 再 把 这 个 列表 传人 到 构造 方法 里 。 但 是 如 果 是 像 {1，2，3} 这 样 的 字面 量 ，Python 会 
利用 一 个 专门 的 叫 作 BUILD_SET 的 字 市 码 来 创建 集合 。 



































用 dis.dis 〈 反 汇编 函数 ) 来 看 看 两 个 方法 的 字 节 码 的 不 同 : 


>>> from dis import dis 


>>> dis('{1}') (1) 
1 0 LOAD_CONST © (1) 
3 BUILD_SET a (2) 
6 RETURN_VALUE 
>>> dis('set([1])') © 
1 © LOAD_NAME 0 (set) @ 
3 LOAD_CONST 0 (1) 
6 BUILD_LIST 1 
9 CALL_FUNCTION 1 (1 positional, 0 keyword pair) 


12 RETURN_VALUE 


@ 检查 {1} 字面 量 背后 的 字 节 码 。 

© 特殊 的 字 节 码 BUILD_SET 几乎 完成 了 所 有 的 工作 。 

© set([1]) 的 字 节 码 。 

O 3 种 不 同 的 操作 代替 了 上 面 的 BUILD_SET: LOAD_NAME、BUILD_LIST 和 CALL_FUNCTION, 











由 于 Python 里 没有 和 针对 frozenset 的 特殊 字面 量 名 法， 我们 只 能 采用 构造 方法 。Python 3 
里 frozenset 的 标准 字符 串 表示 形式 看 起 来 就 像 构 造 方法 调用 一 样 。 来 看 这 段 控 制 台 对 话 : 


>>> frozenset(range(10)) 
frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9}) 


既然 提 到 了 句法 ， 就 不 得 不 提 一 下 我 们 已 经 熟悉 的 列表 推导 ， 因 为 也 有 类 似 的 方式 来 新 建 
集合 。 
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3.8.2 ”集合 推导 


Python 2.7 带 来 了 集合 推导 (setcomps) 和 之 前 在 3.2 市 里 讲 到 过 的 字典 推导 。 示 例 3-13 是 
个 简单 的 例子 。 


示例 3-13 新 建 一 个 Latin-l 字符 集合 ， 该 集合 里 的 每 个 字符 的 Unicode 名 字 里 都 有 
“SIGN” 这 个 单词 
>>> from unicodedata import name @ 
>>> {chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i),'')} @ 
{'§', “= ters '#', Hy ter E "urs "x PSH 'q', Ey 'o', 
ree "4", "s', "+", te tai g '®', '%'} 
@ 从 unicodedata 模块 里 导入 name 函数 ， 用 以 获取 字符 的 名 字 。 
O 把 编码 在 32~255 之 间 的 字符 的 名 字 里 有 “SIGN” 单 词 的 挑 出 来 ， 放 到 一 个 集合 里 。 


跟 句法 相关 的 内 容 就 讲 到 这 里 ， 下 面 看 看 用 于 集合 类 型 的 丰富 操作 。 


3.8.3 ”集合 的 操作 


图 3-2 列 出 了 可 变 和 不 可 变 集合 所 拥有 的 方法 的 概况 ， 甚 中 不 少 是 运算 符 重 载 的 特殊 方法 。 
表 3-2 则 包含 了 数学 里 集合 的 各 种 操作 在 Python 中 所 对 应 的 运算 符 和 方法 。 其 中 有 些 运算 
符 和 方法 会 对 集合 做 就 地 修改 〈 像 =、 和 ifference_update， 等 等 )， 这 类 操作 在 纯粹 的 数 
学 世界 里 是 没有 意义 的 ， 另 外 frozenset 也 不 会 实现 这 些 操作 。 
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3-2; collections.abc 中 ，MutableSet 和 它 的 超 类 的 UML 类 图 (箭头 从 子 类 指向 超 类 ， 抽 象 类 
和 抽象 方法 的 名 称 以 斜体 显示 ， 其 中 省 略 了 反 向 运算 符 方法 ) 





Be 3-2 中 的 中 级 运算 符 需要 两 侧 的 被 操作 对 象 都 是 集合 类 型 ， 但 是 其 他 的 所 
有 方法 则 只 要 求 所 传人 的 参数 是 可 进 代 对 象 。 例 如 ， 想 求 4 个 聚合 类 型 a、 
b、c 和 4d 的 合集 ， 可 以 用 a.union(b, c, d), XE a 必须 是 个 st， 但 是 b、 
< 和 d 则 可 以 是 任何 类 型 的 可 迭代 对 象 。 














表 3-2: 集合 的 数学 运算 : 


这 些 方法 或 者 会 生成 新 集合 ， 或 者 会 在 条 件 允 许 的 情况 下 就 地 


























修改 集合 
数学 符号 Python 运算 符 ”方法 描述 
SNZ s&z s.__and__(z) s 和 z 的 交集 
z&s s.__rand__(z) Bela] & 操作 
s.intersection(it, ...) FG aye FRAY it 和 其 他 所 有 参数 转 
化 为 集合 ， 然 后 求 它们 与 s 的 交集 
s 8&= z s.__iand__(z) 把 s 更 新 为 s 和 z 的 交集 
s.intersection update(it, ...) 把 可 迭代 的 it 和 其 他 所 有 参数 转 
化 为 集合 ， 然 后 求 得 它们 与 s 的 交 
集 ， 然 后 把 s 更 新 成 这 个 交集 
SUZ s | z s.__or__(z) s 和 z 的 并 集 
zis s.__ror__(z) | 的 反 向 操作 
s.union(it, ...) FERRY it 和 其 他 所 有 参数 转 
化 为 集合 ， 然 后 求 它们 和 s 的 并 集 
s |=z s.__ior__(z) 把 s 更 新 为 s 和 z 的 并 集 
s.update(it, ...) 把 可 迭代 的 让 和 其 他 所 有 参数 转 
化 为 集合 ， 然 后 求 它们 和 s 的 并 
集 ， 并 把 s 更 新 成 这 个 并 集 
S\Z S s.__sub__(z) s 和 z 的 差 集 ， 或 者 叫 作 相对 补 集 
z-s s.__rsub__(z) - 的 反 向 操作 
s.difference(it, ...) 把 可 迭代 的 让 和 其 他 所 有 参数 转 
化 为 集合 ， 然 后 求 它们 和 s 的 差 集 
号 s.__isub__(z) 把 s 更 新 为 它 与 z 的 差 集 
s.difference_update(it, ...) FG aye FRAY it 和 其 他 所 有 参数 转 
化 为 集合 ， 求 它们 和 s 的 差 集 ， 然 
后 把 s 更 新 成 这 个 差 集 
s.symmetric_difference(it) 求 s 和 set(it) 的 对 称 差 集 
SAZ Mz s._xor_ (z) 求 s 和 z 的 对 称 差 集 
zs s.__rxor__(z) ^ 的 反 向 操作 
s.symmetric_difference_update(it, ...) 把 可 进 代 的 让 和 其 他 所 有 参数 转 
化 为 集合 ， 然 后 求 它 们 和 s 的 对 称 
差 集 ， 最 后 把 s 更 新 成 该 结果 
s ^= Z s.__ixor__(z) 把 s 更 新 成 它 与 z 的 对 称 差 集 








在 写 这 本 书 的 时 候 ，Python 有 个 缺陷 (issue 8743, http://bugs.python.org/ 
issue8743)， 里 面 说 到 set() 的 运算 符 (or、and、sub、xor 和 它们 相对 应 的 
就 地 修改 运算 符 ) 要 求 参 数 必须 是 set() 的 实例 ， 这 就 导致 这 些 运算 符 不 能 
被 用 在 collections.abc.Set 这 个 子 类 上 面 。 这 个 缺陷 已 经 在 Python 2.7 和 


Python 3.4 里 修复 了 ， 在 你 看 到 这 本 书 的 时 候 ， 它 已 经 成 了 历史 。 





表 3-3 里 列 出 了 返回 值 是 True 和 False 的 方法 和 运算 符 。 
表 3-3: 集合 的 比较 运算 符 ， 返 回 值 是 布尔 类 型 














数学 符号 ”Python 运算 符 方法 描述 

s.isdisjoint(z) 查看 s 和 z 是否 不 相交 (没有 共同 元 素 ) 
ees eins s.__contains_(e) 元 素 e 是 否 属于 s 
SEZ S<=Z s.__le_(z) s 是 否 为 z 的 子 集 

s.issubset(it) 把 可 选 代 的 it 转化 为 集合 ， 然 后 查看 s 是 否 为 它 的 子 集 
SCZ s<z s.__lt_(z) s 是 否 为 z 的 真子 集 
s2z S>=Z s.__ge__(z) s 是 否 为 z 的 父 集 

s.issuperset(it) EP ARAYI it 转化 为 集合 ， 然 后 查看 s 是 否 为 它 的 父 集 
SDZ s>z s. gt (z) s 是 否 为 z 的 真 父 集 





除了 跟 数 学 上 的 集合 计算 有 关 的 方法 和 运算 符 ， 集 合 类 型 还 有 一 些 为 了 实用 性 而 添加 的 方 
法 ， 其 汇总 见于 表 3-4。 


表 3-4: 集合 类 型 的 其 他 方法 


set frozenset 





























s.add(e) 。 把 元 素 e 添加 到 s 中 

s.clear() . 移 除 掉 s 中 的 所 有 元 素 

s.copy() 。 。 对 s 浅 复制 

s.discard(e) 。 如 果 s 里 有 e 这 个 元 素 的 话 ， 把 它 移 除 

s.__iter_() 。 。 返回 s 的 迭代 器 

s.__len_() 。 。 len(s) 

s.pop() 。 从 s 中 移 除 一 个 元 素 并 返回 它 的 值 ， 若 s 为 空 ， 则 抛 出 











KeyError 异常 
s.remove(e) 。 Ms 中 移 除 e 元 素 ， 若 e 元 素 不 存在 ， 则 抛 出 KeyError 异常 


到 这 里 ， 我 们 差不多 把 集合 类 型 的 特性 总 结 完了 。 


下 面 会 继续 探讨 字典 和 集合 类 型 背后 的 实现 ， 看 看 它们 是 如 何 借助 散 列表 来 实现 这 些 功能 
的 。 读 完 这 章 余 下 的 内 容 后 ， 就 算 再 遇 到 dict, set 或 是 其 他 这 一 类 型 的 一 些 莫名 其 妙 的 
表现 ， 你 也 不 会 手足 无 措 。 


3.9 dict 和 set 的 背后 

想 要 理解 Python 里 字典 和 和 集合 类 型 的 长 处 和 弱点 ， 它 们 背后 的 散 列表 古 绕 不 开 的 一 环 。 

这 一 节 将 会 回答 以 下 几 个 问题 。 

。 Python 里 的 dict 和 set 的 效率 有 多 高 ? 

。 为 什么 它们 是 无 序 的 ? 

。 为 什么 并 不 是 所 有 的 Python 对 象 都 可 以 当 作 dict 的 键 或 set 里 的 元 素 ? 

。 为 什么 dict 的 键 和 set 元 素 的 顺序 是 跟 据 它们 被 添加 的 次 序 而 定 的 ， 以 及 为 什么 在 映 
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射 对 象 的 生命 周期 中 ， 这 个 顺序 并 不 是 一 成 不 变 的 ? 
。 IMATE He ROMER ae 或 是 set 的 同时 往 里 添加 元 素 ? 


为 了 让 你 有 动力 研究 散 列 表 ， 下 面 先 来 看 一 个 关于 dict 和 set 效率 的 实验 ， 实 验 对 象 里 大 
概 有 上 百 万 个 元 素 ， 而 实验 结果 可 能 会 出 平 你 的 意料 。 


3.9.1 一 个 关于 效率 的 实验 


所 有 的 Python 程序 员 都 从 经 验 中 得 出 结论 ， 认 为 字典 和 速度 是 非常 快 的 。 接 下 来 我 
们 要 通过 可 控 的 实验 来 证 实 这 一 点 。 


为 了 对 比 容器 的 大 小 对 dict, set 或 list 的 in 运算 符 效 率 的 影响 ， 我 创建 了 一 个 有 1000 
万 个 双 精 度 序 点 数 的 数组 ， 名 叫 haystack。 另 外 还 有 一 个 包含 了 1000 个 浮 点 数 的 needles 
数组 ， 其 中 500 个 数字 是 从 haystack 里 挑 出 来 的 ， 另 外 500 个 肯定 不 在 haystack 里 。 


作为 dict 测试 的 基准 ， 我 用 dict.fromkeys() 来 建立 了 一 个 含有 1000 个 浮 点 数 的 名 叫 
haystack 的 字典 ， 并 用 timeit 模块 测试 示例 3-14 (与 示例 3-11 相同 ) 里 这 段 代 码 运行 所 
需要 的 时 间 。 


示例 3-14 在 haystack 里 查找 needles 的 元 素 ， 并 计算 找到 的 元 素 的 个 数 
found = 0 
for n in needles: 
if n in haystack: 
found += 1 


然后 这 段 基准 测试 重复 了 4 次 ， 每 次 都 把 haystack 的 大 小 变 成 了 上 一 次 的 10 倍 ， 直 到 里 
MA 1000 万 个 元 素 。 最 后 这 些 测 试 的 结果 列 在 了 表 3-5 中 。 















































表 3-5: 用 in 运算 符 在 5 个 不 同 大 小 的 haystack 字 典 里 搜索 1000 个 元 素 所 需要 的 时 间 。 代 码 运 

行 在 一 个 Core ij 笔记 本 上 ，Python 版 本 是 3.4.0 (测试 计算 的 是 示例 3-14 里 循环 的 运 
行 时 间 ) 

haystack 的 长 度 增长 系数 dict 花 费时 间 增长 系数 

1000 1x 0.000202s 1.00 x 

10 000 10 x 0.000140s 0.69 x 

100 000 100 x 0.000228s 1.13 x 

1 000 000 1000 x 0.000290s 1.44 x 

10 000 000 10 000 x 0.000337s 1.67 x 


也 就 是 说 ， 在 我 的 笔记 本 上 从 1000 个 字典 键 里 搜索 1000 个 浮 点 数 所 需 的 时 间 是 0.000202 

秒 ， 把 同样 的 搜索 在 含有 10 000 000 个 元 素 的 字典 里 进行 一 遍 ， 只 需要 0.000337 秒 。 换 名 

话说 ， 在 一 个 有 1000 万 个 键 的 字典 里 查找 1000 个 数 ， 花 在 每 个 数 上 的 时 间 不 过 是 0.337 

微 秒 一 一 没 错 ， 相 当 于 平均 每 个 数 差 不 多 三 分 之 一 微 秒 。 

作为 对 比 ， 我 把 haystack 换 成 了 set 和 List 类 型 ， 重 复 了 同样 的 增长 大 小 的 实验 。 对 于 
et， 除 了 上 面 的 那个 循环 的 运行 时 间 ， 我 还 测量 了 示例 3-15 那 行 代码 ， 这 段 代 码 也 计算 
了 needles 中 出 现在 haystack 中 的 元 素 的 个 数 。 



































示例 3-15 利用 交集 来 计算 needles 中 出 现在 haystack 中 的 元 素 的 个 数 
found = len(needles & haystack) 
K 3-6 列 出 了 所 有 测试 的 结果 。 最 快 的 时 间 来 自 “集合 交集 花费 时 间 ” 这 一 列 ， 这 一 列 的 
结果 是 示例 3-15 中 利用 集合 & 操作 的 代码 的 效果 。 不 出 所 料 的 是 ， 最 精 糕 的 表现 来 自 “ 列 
表 花 费时 间 ” 这 一 列 。 由 于 列表 的 背后 没有 散 列 表 来 支持 in 运算 符 ， 每 次 搜索 都 需要 扫 
描 一 次 完整 的 列表 ， 导 致 所 需 的 时 间 跟 据 haystack 的 大 小 呈 线 性 增长 。 
表 3-6: 在 5 个 不 同 大 小 的 haystack 里 搜索 1000 个 元 素 所 需 的 时 间 ，haystack 分 别 以 字典 、 
集合 和 列表 的 形式 出 现 。 测 试 环境 是 一 个 有 Core i7 处 理 器 的 笔记 本 ，Python 版 本 
是 3.4.0 (测试 所 测量 的 代码 是 示例 3-14 中 的 循环 和 示例 3-15 的 集合 & 操 作 ) 














haystack 增长 系 dict “增长 ”集合 花费 增长 合 交集 增长 ”列表 花费 ”增长 系数 
的 长 度数 费时 间 系数 时间 系数 ”花费 时 间 系数 Mia 
1000 1x 0.000202s 1.00x 0.000143s 1.00 0.000087s 1.00x 0.010556s 1.00x 


10 000 10 x 0.000140s 0.69 0.000147s 1.03 x 0.000092s 1.06 0.086586s 8.20 x 
100 000 100 x 0.000228s 1.13 0.000241s 1.69 0.000163s 1.87 0.871560s 82.57 
1000000 1000x  0.000290s 1.44 0.000332s 2.32 0.000250s 2.87 9.189616s 870.56 x 
10000000 10000x 0.000337s 1.67 0.000387s 2.71 0.000314s 3.61% 97.948056s 9278.90 x 


如 果 在 你 的 程序 里 有 任何 的 磁盘 输入 /输出 ， 那 么 不 管 查询 有 多 少 个 元 素 的 字典 或 集合 ， 
所 耗费 的 时 间 都 能 忽略 不 计 (前 提 是 字典 或 者 集合 不 超过 内 存 大 小 )。 可 以 仔细 看 看 跟 表 
3-6 有 关 的 代码 ， 另 外 在 附录 A 的 示例 A-1 中 还 有 相关 的 讨论 。 

把 字典 和 集合 的 运行 速度 之 快 的 事实 抓 在 手 里 之 后 ， 让 我 们 来 看 看 它 背 后 的 原因 。 对 散 列 
表 内 部 结构 的 讨论 ， 能 解释 诸如 为 什么 键 是 无 序 且 不 稳定 的 。 


3.9.2 ”字典 中 的 散 列 表 
这 一 节 笼 统 地 描述 了 Python 如 何 用 散 列表 来 实现 dict 类 型 ， 有 些 细节 只 是 一 笔 带 过 ， 像 
CPython 里 的 一 些 优化 技巧 "就 没有 提 到 。 但 是 总 体 来 说 描述 是 准确 的 。 















































为 了 简单 起 见 ， 这 里 先 集 中 讨论 dict 的 内 部 结构 ， 然 后 再 延伸 到 集合 上 面 。 























散 列 表 其 实 是 一 个 稀 距 数组 〈 总 是 有 空白 元 素 的 数组 称 为 稀 足 数组 ) 。 在 一 般 的 数据 结构 
教材 中 ， 散 列表 里 的 单元 通常 叫 作 表 元 (bucket) 。 在 dict 的 散 列 表 当 中 ， 每 个 键 值 对 都 
占用 一 个 表 元 ， 每 个 表 元 都 有 两 个 部 分 ， 一 个 是 对 键 的 引用 ， 另 一 个 是 对 值 的 引用 。 因 为 
所 有 表 元 的 大 小 一 致 ， 所 以 可 以 通过 偏 移 量 来 读 取 某 个 表 元 。 





























注 10: Python 源码 dictobject.c 模块 (http://hg.python.org/cpython/file/tip/Objects/dictobject.c) 里 有 丰富 的 注 
释 ， 另 外 延伸 阅读 中 有 对 《代码 之 美 》 一 书 的 引用 。 
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因为 Python 会 设法 保证 大 概 还 有 三 分 之 一 的 表 元 是 空 的 ， 所 以 在 快要 达到 这 个 国 值 的 时 
候 ， 原 有 的 散 列 表 会 被 复制 到 一 个 更 大 的 空间 里 面 。 
如 果 要 把 一 个 对 象 放 入 散 列表 ， 那 么 首先 要 计算 这 个 元 素 键 的 散 列 值 。Python 中 可 以 用 
hash() 方法 来 做 这 件 事情 ， 接 下 来 会 介绍 这 一 点 。 


1. 散 列 值 和 相等 性 

内 置 的 hash() 方法 可 以 用 于 所 有 的 内 置 类 型 对 象 。 如 果 是 自 定义 对 象 调用 hash() 的 话 ， 
实际 上 运行 的 是 自 定义 的 _hash__。 如 果 两 个 对 象 在 比较 的 时 候 是 相等 的 ， 那 它们 的 散 列 
值 必 须 相 等 ， 否 则 散 列 表 就 不 能 正常 运行 了 。 例 如 ， 如 果 1 == 1.0 为 真 ， 那 么 hash(1) == 
hash(1.0) 也 必须 为 真 ， 但 其 实 这 两 个 数字 ( 整 型 和 浮 点 ) 的 内 部 结构 是 完全 不 一 样 的 。” 


为 了 让 散 列 值 能 够 胜任 散 列表 索引 这 一 角色 ， 它 们 必须 在 索引 空间 中 尽量 分 散 开 来 。 这 意 
味 着 在 最 理想 的 状况 下 ， 越 是 相似 但 不 相等 的 对 象 ， 它 们 散 列 值 的 差别 应 该 越 大 。 示 例 
3-16 是 一 段 代 码 输出 ， 这 段 代 码 被 用 来 比较 散 列 值 的 二 进 制 表达 的 不 同 。 广 意 其 中 1 和 
1.0 的 散 列 值 是 相同 的 ， 而 1.0001, 1.0002 和 1.0003 的 散 列 值 则 非常 不 同 。 


示例 3-16 在 32 位 的 Python 中 ，1、1.0001、1.0002 和 1.0003 这 几 个 数 的 散 列 值 的 二 进 
制 表达 对 比 (上 下 两 个 二 进 制 间 不 同 的 位 被 ! 高 亮 出 来 ， 表 格 的 最 右 列 显示 









































了 有 多 少 位 不 相同 ) 
32-bit Python build 
1 00000000000000000000000000000001 
l= 0 
1.0 00000000000000000000000000000001 
1.0 00000000000000000000000000000001 
ae ee ee EE TEI l= 16 
1.0001 00101110101101010000101011011101 
1.0001 00101110101101010000101011011101 
Hero DETTO LELEII IIIJ II O l= 20 
1.0002 01011101011010100001010110111001 
1.0002 01011101011010100001010110111001 
fy Late Ph Fh bd 2 a fe 17 


1.0003  90001100000111110010000010010110 
用 来 计算 示例 3-16 的 程序 见于 附录 A。 尽 管 程序 里 大 部 分 代码 都 是 用 来 整理 输出 格式 的 ， 
考虑 到 完整 性 ， 我 还 是 把 全 部 的 代码 放 在 示例 A-3 PT. 


从 Python 3.3 开始 ，str、bytes Fil datetime 对 象 的 散 列 值 计算 过 程 中 多 了 随 
机 的 “加 盐 ” 这 一 步 。 所 加 盐 值 是 Python 进程 内 的 一 个 常量 ， 但 是 每 次 启动 
Python 解释 器 都 会 生成 一 个 不 同 的 盐 值 。 随 机 盐 值 的 加 入 是 为 了 防止 DOS Be 
击 而 采取 的 一 种 安全 措施 。 在 hash 特殊 方法 的 文档 (https://docs.python. 
org/3/reference/datamodel.html#object.__hash__) 里 有 相关 的 详细 信息 。 











注 11: 既然 提 到 了 整 型 ，CPython 的 实现 细节 里 有 一 条 是 : 如 果 有 一 个 整 型 对 象 ， 而 且 它 能 被 存 进 一 个 机 器 
字 中 ， 那 么 它 的 散 列 值 就 是 它 本 身 的 值 。 
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了 解 对 象 散 列 值 相关 的 基本 概念 之 后 ， 我 们 可 以 深入 到 散 列表 工作 原理 背后 的 算法 了 。 


2. 散 列 表 算 法 

为 了 获取 my_dict[search_key] 背后 的 值 ，Python 首先 会 调用 hash(search_key) 来 计算 
search_key 的 散 列 值 ， 把 这 个 值 最 低 的 几 位 数字 当 作 偏 移 量 ， 在 散 列 表 里 查 找 表 元 (A 
体 取 几 位 ， 得 看 当前 散 列 表 的 大 小 )。 若 找到 的 表 元 是 空 的 ， 则 抛 出 KeyError 异常 。 若 不 
是 空 的 ， 则 表 元 里 会 有 一 对 found_key:found_value。 这 时 候 Python 会 检验 search_key == 
found_key 是 否 为 真 ， 如 果 它 们 相等 的 话 ， 就 会 返回 found_value, 


如 果 search_key 和 found_key 不 匹配 的 话 ， 这 种 情况 称 为 散 列 冲突 。 发 生 这 种 情况 是 因 
为 ， 散 列表 所 做 的 其 实 是 把 随机 的 元 素 映 射 到 只 有 几 位 的 数字 上 ， 而 散 列 表 本 身 的 索引 又 
只 依赖 于 这 个 数字 的 一 部 分 。 为 了 解决 散 列 冲 突 ， 算 法 会 在 散 列 值 中 另外 再 取 几 位 ， 然 后 
用 特殊 的 方法 处 理 一 下 ， 把 新 得 到 的 数字 再 当 作 索 引 来 寻找 表 元 。” 若 这 次 找到 的 表 元 是 
室 的 ， 则 同样 抛 出 KeyError; 若非 空 ， 或 者 键 匹 配 ， 则 返回 这 个 值 ， 或 者 又 发 现 了 散 列 冲 
突 ， 则 重复 以 上 的 步 又 。 图 3.3 展示 了 这 个 算法 的 示意 图 。 


使 用 散 列 值 的 另 一 部 分 
计算 键 的 散 列 值 来 定位 散 列表 中 的 另 一 行 


使 用 散 列 值 的 一 
部 分 来 定位 散 列 
表 中 的 一 个 表 元 























































































































回 表 元 里 的 值 








抛 出 KeyError 


图 3-3: 从 字典 中 取 值 的 算法 流程 图 ， 给 定 一 个 键 ， 这 个 算法 要 么 返回 一 个 值 ， 要 么 抛 出 KeyError 异常 














添加 新 元 素 和 更 新 现 有 键 值 的 操作 几乎 跟 上 面 一 样 。 只 不 过 对 于 前 者 ， 在 发 现 空 表 元 的 时 候 
会 放 入 一 个 新 元 素 ; 对 于 后 者 ， 在 找到 相对 应 的 表 元 后 ， 原 表 里 的 值 对 象 会 被 替换 成 新 值 。 
另外 在 插入 新 值 时 ，Python 可 能 会 按照 散 列 表 的 拥挤 程度 来 决定 是 否 要 重新 分 配 内 存 为 它 
扩容 。 如 有 果 增 加 了 散 列 表 的 大 小 ， 那 散 列 值 所 占 的 位 数 和 用 作 索 引 的 位 数 都 会 随 之 增加 ， 
这 样 做 的 目的 是 为 了 减少 发 生 散 列 冲 突 的 概率 。 

表面 上 看 ， 这 个 算法 似乎 很 费事 ， 而 实际 上 就 算 dict 里 有 数 百 万 个 元 素 ， 多 数 的 搜索 过 程 

































































注 12: 在 散 列 冲突 的 情况 下 ， 用 C 语言 写 的 用 来 打 乱 散 列 值 位 的 算法 的 名 字 很 有 意思 ， 叫 perturb。 详 见 
CPython 源码 里 的 dictobject.c (https://hg.python.org/cpython/file/tip/Objects/dictobject.c) 。 




















中 并 不 会 有 冲突 发 生 ， 平 均 下 来 每 次 搜索 可 能 会 有 一 到 两 次 冲突 。 在 正常 情况 下 ， 就 算是 
最 不 走运 的 键 所 遇 到 的 冲突 的 次 数 用 一 只 手 也 能 数 过 来 。 

了 解 dict 的 工作 原理 能 让 我 们 知道 它 的 所 长 和 所 短 ， 以 及 从 它 衍生 而 来 的 数据 类 型 的 优 缺 
点 。 下 面 就 来 看 看 dict 这 些 特 点 背后 的 原因 。 


3.9.3 ”dict 的 实现 及 其 导致 的 结果 

下 面 的 内 容 会 讨论 使 用 散 列 表 给 dict 带 来 的 优势 和 限制 都 有 哪些 。 

1. 键 必须 是 可 散 列 的 

一 个 可 散 列 的 对 象 必 须 满 足以 下 要 求 。 

(支持 hash() 国 数 ， 并 且 通 过 __hash__() 方法 所 得 到 的 散 列 值 是 不 变 的 。 
(2) 支持 通过 __eq_() 方法 来 检测 相等 性 。 

(3) 车 a == b 为 真 ， 则 hash(a) == hash(b) 也 为 真 。 


所 有 由 用 户 自 定义 的 对 象 默认 都 是 可 散 列 的 ， 因 为 它们 的 散 列 值 由 id() 来 获取 ， 而 且 它们 
都 是 不 相等 的 。 


如 果 你 实现 了 一 个 类 的 e 方法， 并 且 希 望 它 是 可 散 列 的 ， 那 么 它 一 定 要 
有 个 恰当 的 _hash__ 方 法, 保证 在 a == b 为 真 的 情况 下 hash(a) == hash(b) 
也 必定 为 真 。 否 则 就 会 破坏 恒定 的 散 列表 算法 ， 导 致 由 这 些 对 象 所 组 成 的 字 
典 和 集合 完全 失去 可 靠 性 ， 这 个 后 果 是 非常 可 怕 的 。 另 一 方面 ， 如 果 一 个 
含有 自 定义 的 eq 依赖 的 类 处 于 可 变 的 状态 ， 那 就 不 要 在 这 个 类 中 实现 
hash_ 方 法， 因为 它 的 实例 是 不 可 散 列 的 。 













































































2. 字典 在 内 存 上 的 开销 巨大 

由 于 字典 使 用 了 散 列表 ， 而 散 列 表 又 必须 是 稀 玻 的 ， 这 导致 它 在 空间 上 的 效率 低下 。 举 例 
而 言 ， 如 果 你 需要 存放 数量 巨大 的 记录 ， 那 么 放 在 由 元 组 或 是 具名 元 组 构成 的 列表 中 会 是 
比较 好 的 选择 ， 最 好 不 要 根据 ISON 的 风格 ， 用 由 字典 组 成 的 列表 来 存放 这 些 记录 。 用 元 
组 取代 字典 就 能 节省 空间 的 原因 有 两 个 : 其 一 是 避免 了 散 列 表 所 耗费 的 空间 ， 其 二 是 无 需 
把 记录 中 字段 的 名 字 在 每 个 元 素 里 都 存 一 遍 。 

在 用 户 自 定义 的 类 型 中 ，_slots_ 属性 可 以 改变 实例 属性 的 存储 方式 ， 由 dict 变 成 
tupLe， 相 关 细 节 在 9.8 节 会 谈 到 。 

记 住 我 们 现在 讨论 的 是 空间 优化 。 如 果 你 手头 有 几 百 万 个 对 象 ， 而 你 的 机 器 有 几 个 GB 的 
内 存 ， 那 么 空间 的 优化 工作 可 以 等 到 真正 需要 的 时 候 再 开始 计划 ， 因 为 优化 往往 是 可 维护 
性 的 对 立 面 。 

3. 键 查询 很 快 

dict 的 实现 是 典型 的 空间 换 时 间 : 字典 类 型 有 着 巨大 的 内 存 开 销 ， 但 它们 提供 了 无 视 数 据 
量 大 小 的 快速 访问 一 一 只 要 字典 能 被 装 在 内 存 里 。 正 如 表 3-5 所 示 ， 如 果 把 字典 的 大 小 从 
1000 个 元 素 增加 到 10 000 000 个 ， 查 询 时 间 也 不 过 是 原来 的 2.8 倍 ， 从 0.000163 秒 增加 到 
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了 0.00456 秒 。 这 意味 着 在 一 个 有 1000 万 个 元 素 的 字典 里 ， 每 秒 能 进行 200 万 个 键 查询 。 


4. 键 的 次 序 取决 于 添加 顺序 

当 往 dict 里 添加 新 键 而 又 发 生 散 列 冲 突 的 时 候 ， 新 键 可 能 会 被 安排 存放 到 另 一 个 位 置 。 
于 是 下 面 这 种 情况 就 会 发 生 : 由 oo value1), (key2, value2)] 和 dict([key2, 
value2], [key1, value1]) 得 到 的 两 个 字典 ， 在 进行 比较 的 时 候 ， 它 们 是 相等 的 ， 但 是 如 
ALTE key1 和 key2 被 添加 到 字典 里 的 过 程 中 有 冲突 发 生 的 话 ， 这 两 个 键 出 现在 字典 里 的 顺 
序 是 不 一 样 的 。 


示例 3-17 展示 了 这 个 现象 。 这 i na i 唯一 的 区 别 就 是 数据 
出 现 的 顺序 不 一 样 。 TURA, 虽然 键 的 次 序 是 乱 的 ， 个 字典 仍然 被 视 作 相等 的 。 


示例 3-17 dialcodes.py 将 同样 的 数据 以 不 同 的 顺序 添加 到 3 个 字典 里 
# 世界 人 口 数 量 前 16 位 国家 的 电话 区 号 
DIAL_CODES = [ 

(86, 'China'), 

(91, 'India'), 

(1, ‘United States'), 
(62, 'Indonesia'), 
(55, 'Brazil'), 

(92, 'Pakistan'), 
(880, 'Bangladesh'), 
(234, 'Nigeria'), 

(7, 'Russia'), 

(81, 'Japan'), 





















































] 


di = dict(DIAL_CODES) @ 

print('d1:', d1.keys()) 

d2 = dict(sorted(DIAL_CODES)) @ 

print('d2:', d2.keys()) 

d3 = dict(sorted(DIAL_CODES, key=lLambda x:x[1])) © 
print('d3:', d3.keys()) 

assert d1 == d2 and d2 == d3 @ 


@ 创建 d1 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 人 口 排名 来 决定 的 。 

O 创建 d2 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 电话 区 号 来 决定 的 。 

© 创建 d3 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 名 字 的 基文 拼写 来 决定 的 。 
@ 这 些 字典 是 相等 的 ， 因 为 它们 所 包含 的 数据 是 一 样 的 。 

示例 3-18 里 是 上 面 例子 的 输出 。 


示例 3-18 dialcodes.py 的 输出 中 ，3 个 字典 的 键 的 顺序 是 不 一 样 的 
d1: dict keys([880, 1, 86, 55, 7, 234, 91, 92, 62, 81]) 
d2: dict_keys([880, 1, 91, 86, 81, 55, 234, 7, 92, 62]) 
d3: dict_keys([880, 81, 1, 86, 55, 7, 234, 91, 92, 62]) 
5. 往 字 典 里 添加 新 键 可 能 会 改变 已 有 键 的 顺序 
无 论 何 时 往 字典 里 添加 新 的 键 ，Python 解释 器 都 可 能 做 出 为 字典 扩容 的 决定 。 扩 容 导 致 的 
结果 就 是 要 新 建 一 个 更 大 的 散 列表 ， 并 把 字典 里 已 有 的 元 素 添 加 到 新 表 里 。 这 个 过 程 中 可 


















































能 会 发 生 新 的 散 列 冲突 ， 导 致 新 散 列 表 中 键 的 次 序 变化 。 要 注意 的 是 ， 上 面 提 到 的 这 些 变 
化 是 否 会 发 生 以 及 如 何 发 生 ， 都 依赖 于 字典 背后 的 具体 实现 ， 因 此 你 不 能 很 自信 地 说 自己 
知道 背后 发 生 了 什么 。 如 果 你 在 迭代 一 个 字典 的 所 有 键 的 过 程 中 同时 对 字典 进行 修改 ， 那 
么 这 个 循环 很 有 可 能 会 跳 过 一 些 键 一 一 甚至 是 跳 过 那些 字典 中 已 经 有 的 键 。 

由 此 可 知 ， 不 要 对 字典 同时 进行 进 代 和 修改 。 如 果 想 扫描 并 修改 一 个 字 内 ， 最 好 分 成 两 步 
来 进行 : 首先 对 字典 欠 代 ， 以 得 出 需要 添加 的 内 容 ， 把 这 些 内 容 放 在 一 个 新 字典 里 ， 友 代 
结束 之 后 再 对 原 有 字典 进行 更 新 。 

在 Python 3 中，.keys()、.items() 和 .values() 方法 返回 的 都 是 字典 视图 。 
也 就 是 说 ， 这 些 方法 返回 的 值 更 像 集 合 ， 而 不 是 像 Python 2 那样 返回 列表 。 
视图 还 有 动态 的 特性 ， 它 们 可 以 实时 反馈 字典 的 变化 。 
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现在 已 经 可 以 把 学 到 的 有 关 散 列表 的 知识 应 用 在 集合 上 面 了 。 


3.9.4 ”set 的 实现 以 及 导致 的 结果 


set 和 frozenset 的 实现 也 依赖 散 列表 ， 但 在 它们 的 散 列表 里 存放 的 只 有 元 素 的 引用 (就 
像 在 字典 里 只 存放 键 而 没有 相应 的 值 ) 。 在 set 加 入 到 Python 之 前 ， 我 们 都 是 把 字典 加 上 
无 意义 的 值 当 作 集合 来 用 的 。 

在 3.9.3 节 中 所 提 到 的 字典 和 散 列表 的 几 个 特点 ， 对 集合 来 说 几乎 都 是 适用 的 。 为 了 避免 
太 多 重复 的 内 容 ， 这 些 特点 总 结 如 下 。 

。 集合 里 的 元 素 必 须 是 可 散 列 的 。 

。 集合 很 消耗 内 存 。 

。 可 以 很 高 效 地 判断 元 素 是 否 存在 于 某 个 集合 。 

。 元 素 的 次 序 取决 于 被 添加 到 集合 里 的 次 序 。 

。 往 集 合 里 添加 元 素 ， 可 能 会 改变 集合 里 已 有 元 素 的 次 序 。 


3.10 ”本 章 小 结 


字典 算得 上 是 Python 的 基石 。 除 了 基本 的 dict 之 外 ,标准 库 还 提供 现成 且 好 用 的 特殊 
映射 类 型 ， 比 如 defaultdict, OrderedDict, ChainMap 和 Counter。 这 些 上 映射 类 型 都 属于 
collections 模块 ， 这 个 模块 还 提供 了 便于 扩展 的 UserDict 类 。 


大 多 数 映射 类 型 都 提供 了 两 个 很 强大 的 方法 : setdefault 和 update, setdefault 方法 可 
以 用 来 更 新 字典 里 存放 的 可 变 值 (比如 列表 )， 从 而 避免 了 重复 的 键 搜索 。update 方法 则 
让 批量 更 新 成 为 可 能 ， 它 可 以 用 来 插入 新 值 或 者 更 新 已 有 键 值 对 ， 它 的 参数 可 以 是 包含 
(key, value) 这 种 键 值 对 的 可 迭代 对 象 ， 或 者 关键 字 参 数 。 映 射 类 型 的 构造 方法 也 会 利用 
update 方法 来 让 用 户 可 以 使 用 别 的 映射 对 象 、 可 和 迭代 对 象 或 者 关键 字 参 数 来 创建 新 对 象 。 


在 映射 类 型 的 API 中 ， 有 个 很 好 用 的 方法 是 missing, RRL ESET BENIN He, 
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可 以 通过 这 个 方法 自 定义 会 发 生 什么 。 

collections.abc 模块 提供 了 Mapping 和 MutableMapping 这 两 个 抽象 基 类 ， 利 用 它们 ， 我 们 
可 以 进行 类 型 查询 或 者 引用 。 不 太 为 人 所 知 的 MappingProxyType 可 以 用 来 创建 不 可 变 映 射 
对 象 ， 它 被 封装 在 types 模块 中 。 另 外 还 有 Set 和 MutableSet 这 两 个 抽象 基 类 。 

dict 和 set 背后 的 散 列表 效率 很 高 ， 对 它 的 了 解 越 深 入 ， 就 越 能 理解 为 什么 被 保存 的 元 素 
会 呈现 出 不 同 的 顺序 ， 以 及 已 有 的 元 素 顺 序 会 发 生变 化 的 原因 。 同 时 ， 速 度 是 以 牺牲 空间 
为 代价 而 换 来 的 。 


3.11 延伸 阅读 


Python 标准 库 中 的 “8.3. collections—Container datatypes” 一 节 (https://docs.python.org/3/ 
library/collections.html) 提 到 了 关于 一 些 映射 类 型 的 例子 和 使 用 技巧 。 如 果 想 要 创建 新 的 
映射 类 型 ， 或 者 是 体会 一 下 现 有 的 映射 类 型 的 实现 方式 ，Python 模块 Lib/collections/__ 
init__.py 的 源码 是 一 个 很 好 的 参考 。 

«Python Cookbook (第 3 fk) 中 文 版 》(David Beazley 和 Brian K. Jones 著 ) 的 第 1 章 中 有 
20 个 关于 数据 结构 的 使 用 技巧 ， 大 多 数 都 在 讲 dict 的 巧妙 用 法 。 

“Python 的 字典 类 : 如 何 打造 全 能 战士 ”是 《代码 之 美 》 第 18 章 的 标题 ， 这 一 章 集 中 解释 
了 Python 字典 背后 的 工作 原理 。A.M. Kuchling 是 这 一 章 的 作者 ， 同 时 他 还 是 Python 的 核 
心 开发 者 ， 并 撰写 了 很 多 Python 的 官方 文档 和 指南 。 同 时 CPython 模块 里 的 dictobject. 
c IH X PF (https://hg.python.org/cpython/file/tip/Objects/dictobject.c) 还 提供 了 大 量 的 注释 。 
Brandon Craig Rhodes 的 讲座 “The Mighty Dictionary” (http://pyvideo.org/video/276/the-mighty- 
dictionary-55) 对 散 列 表 做 了 很 精彩 的 讲解 ， 有 趣 的 是 他 的 幻灯 片 里 也 包含 了 大 量 的 表格 。 
关于 为 什么 要 在 语言 里 加 入 集合 这 种 数据 类 型 ， 当 初 也 是 有 一 番 考 量 的 。 具 体 情况 在 
“PEP 218 一 Adding a Built-In Set Object Type” (https://www.python.org/dev/peps/pep-0218/) 
中 有 所 记录 。 在 PEP 128 刚刚 通过 的 时 候 ， 还 没有 针对 set 的 特殊 字面 量 句 法 。 后 来 
Python 3 里 加 入 了 对 set 字面 量 句法 的 支持 ， 然 后 这 个 实现 又 被 向 后 兼容 到 了 Python 2.7 
里 ， 同 时 被 移植 的 还 有 dict 和 set HES, “PEP 274—Dict Comprehensions” (https://www. 
python.org/dev/peps/pep-0274/) 就 是 字典 推导 的 出 生 证 ， 然 而 我 找 不 到 任何 关于 集合 推导 
的 PEP， 当 然 很 有 可 能 是 因为 这 两 个 功能 大 接近 了 。 
























































杂谈 
我 的 朋友 Geraldo Cohen 曾经 说 过 ，Python 的 特点 是 “简单 而 正确 ”。 
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dict 类 型 正 是 这 一 特点 的 完美 体现 一 一 对 它 的 优化 只 为 一 个 目标 : 更 好 地 实现 对 随机 
键 的 读 取 。 而 优化 的 结果 非常 好 ， 由 于 速度 快 而 且 够 健壮 ， 它 大 量 地 应 用 于 Python 的 
解释 器 当中 。 如 果 对 排序 有 要 求 ， 那 么 还 可 以 选择 OrderedDict。 然 而 对 于 映射 类 型 来 
说 ， 保 桂 元 素 的 顺序 并 不 是 一 个 常用 需求 ， 因 此 会 把 它 排除 在 核心 功能 之 外 ， 而 以 标 
准 库 的 形式 提供 其 他 衍生 的 类 型 。 














与 之 形成 鲜明 对 比 的 是 PHP。 在 PHP 手册 中 ， 数 组 的 描述 如 下 (http://php.net/manual/ 
en/language.types.array.php) : 


PHP 中 的 数组 实际 上 是 一 个 有 序 的 映射 一 一 映射 类 型 存放 的 是 键 值 对 。 这 个 映 
射 类 型 被 优化 为 可 充当 不 同 的 角色 。 它 可 以 当 作 数 组 、 列 表 (HME), RAR 
(映射 类 型 的 一 种 实现 )、 字 典 、 集 合 类 型 、 栈 、 队 列 或 其 他 可 能 的 数据 类 型 。 


BE IX RIG, 我 无 法 想象 PHP 4 list 和 0rderedDict 混合 实现 的 成 本 有 多 大 。 


本 书 前 两 章 的 目的 是 展示 Python 中 的 集合 类 型 为 特定 的 使 用 场景 做 了 怎样 的 优化 。 我 
特意 强调 了 在 list 和 dict 的 常规 用 法 之 外 还 有 那些 特殊 的 使 用 情景。 


在 遇 到 Python 之 前 ， 我 主要 使 用 Perl、PHP 和 JavaScript 做 网 站 开发 。 我 很 喜欢 这 些 
语言 中 跟 映射 类 型 相关 的 字面 量 和 句法 特性 。 某 些 时 候 我 不 得 不 使 用 Java 和 C， 然 后 
我 就 会 疯狂 地 想念 这 些 特 性 。 好 用 的 映射 类 型 的 字面 量 和 句法 可 以 帮助 开发 者 轻松 实现 
配置 和 表格 相关 的 开发 ， 也 能 让 我 们 很 方便 地 为 原型 开发 或 者 测试 准备 好 数据 容器 。 
Java 由 于 没有 这 个 特性 ， 不 得 不 用 复杂 且 宛 长 的 XML 来 替代 。 

JSON 被 当 作 “瘦身 版 XML” (http://www.json.org/fatfree.html)。 在 很 多 情景 下 ，JSON 
都 成 功 取代 了 XML。 由 于 拥有 紧 资 的 列表 和 字典 表达 ，JSON 格式 可 以 完美 地 用 于 数 
据 交 换 。 

PHP 和 Ruby 的 散 列 语法 借鉴 了 Perl， 它 们 都 用 => 作为 键 和 值 的 连接 。JavaScript 则 
从 Python 那儿 偷 师 ， 使 用 了 :。 而 JSON 又 从 JavaScript 发 展 而 来 ， 它 的 语法 正好 是 
Python 句法 的 子 集 。 因 此 ,除了 在 true、false 和 null 这 几 个 值 的 拼写 上 有 出 入 之 
外 ，JSON 和 Python 是 完全 兼容 的 。 于 是 ， 现 在 大 家 用 来 交换 数据 的 格式 全 是 Python 
的 dict fe list, 


简单 而 正确 。 











第 4 章 


文本 和 字 节 序列 





人 类 使 用 文本 ， 计 算 机 使 用 字 节 序列 。 





Esther Nam 和 Travis Fischer 


“Character Encoding and Unicode in Python” 


Python 3 明确 区 分 了 人 类 可 读 的 文本 字符 串 和 原始 的 字 节 序列 。 隐 式 地 把 字 节 序列 转换 成 
Unicode 文本 已 成 过 去 。 本 章 将 要 讨论 Unicode 字符 串 、 二 进 制 序列 ， 以 及 在 二 者 之 间 转 
换 时 使 用 的 编码 。 


深入 理解 Unicode 对 你 可 能 十 分 重要 ， 也 可 能 无 关 紧要 ， 这 取决 于 Python 编程 的 场景 。 说 
到 底 ， 本 章 涵盖 的 问题 对 只 处 理 ASCU 文本 的 程序 员 没 有 影响 。 但 是 即便 如 此 ， 也 不 能 避 
而 不 谈 字符 串 和 字 节 序列 的 区 别 。 此 外 ， 你 会 发 现 专门 的 二 进 制 序列 类 型 所 提供 的 功能 ， 
有 些 是 Python 2 中 “全 功能 ”的 str 类 型 不 具有 的 。 

本 章 将 讨论 下 述 话题 : 

。 字符 、 码 位 和 字 市 表述 

。 bytes、bytearray 和 memoryview 等 二 进 制 序列 的 独特 特性 

。 全 部 Unicode 和 陈旧 字符 集 的 编 解码 器 

。 避免 和 处 理 编 码 错误 

。 处 理 文本 文件 的 最 佳 实践 

。 默认 编码 的 陷阱 和 标准 IO 的 问题 

。 规范 化 Unicode 文本 ， 进 行 安全 的 比较 






























































注 1: PyCon 2014, “Character Encoding and Unicode in Python” 演 讲 的 第 12 张 幻 灯 片 [幻灯 片 (http://www. 
slideshare.net/fischertrav/character-encoding-unicode-how-to-with-dignity-33352863)， 视 频 (http://pyvideo. 
org/pycon-us-2014/character-encoding-and-unicode-in-python.html) ]。 
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规范 化 、 大 小 写 折 琶 和 暴力 移 除 音调 符号 的 实用 函数 
使 用 locale 模块 和 PyUCA 库 正确 地 排序 Unicode 文本 
Unicode 数据 库 中 的 字符 元 数据 

能 处 理 字 符 串 和 字 节 序列 的 双 模 式 API 











下 来 先 从 字符 、 码 位 和 字 方 序列 开始 。 


.1 字符 问题 





“字符 串 ” 是 个 相当 简单 的 概念 ， 一 个 字符 串 是 一 个 字符 序列 。 问 题 出 在 “字符 ”的 定义 上 。 


在 2015 年 ,“ 字 符 ” 的 最 佳 定 义 是 Unicode 字符 。 因 此 ， 从 Python 3 的 str 对 象 中 获取 
的 元 素 是 Unicode 字符 ， 这 相当 于 从 Python 2 的 unicode 对 象 中 获取 的 元 素 ， 而 不 是 从 
Python 2 的 str 对 象 中 获取 的 原始 字 节 序列 。 


Unicode 标准 把 字符 的 标识 和 具体 的 字 市 表述 进行 了 如 下 的 明确 区 分 。 








字符 的 标识 ， 即 码 位 ， 是 0~1 114 111 的 数字 (十进制 )， 在 Unicode 标准 中 以 4~6 个 
十 六 进 制 数字 表示 ， 而 且 加 前 级“U+”。 例 如 ， 字 母 A 的 码 位 是 U+0041， 欧 元 符号 的 
码 位 是 U+20AC， 高 音 谱 号 的 码 位 是 U+1D11E。 在 Unicode 6.3 中 (这 是 Python 3.4 使 
用 的 标准 )， 约 10% 的 有 效 码 位 有 对 应 的 字符 。 

字符 的 具体 表述 取决 于 所 用 的 编码 。 编 码 是 在 码 位 和 字 节 序列 之 间 转 换 时 使 用 的 算法 。 
在 UTF-8 编码 中 ，A (U+0041) 的 码 位 编码 成 单个 字 节 \x41， 而 在 UTF-16LE 编码 中 
编码 成 两 个 字 节 \x41\x69。 再 举 个 例子 ， 欧 元 符号 (U+20AC) 在 UTF-8 编码 中 是 三 个 
字 节 \xe2\x82\xac， 而 在 UTF-16LE 中 编码 成 两 个 字 节 : \xac\x20。 





























把 码 位 转换 成 字 市 序列 的 过 程 是 编码 ， 把 字 市 序列 转换 成 码 位 的 过 程 是 解码 。 示 例 4-1 阐 
释 了 这 一 区 分 。 


示例 4-1 编码 和 解码 


0 
© 
© 
© 
8 





>>> s = 'café' 

>>> len(s) #@ 

4 

>>> b = s.encode('utf8') #@ 
>>> b 


b'caf\xc3\xa9' # © 

>>> len(b) #@ 

5 

>>> b.decode('utf8') # @ 
‘café' 





‘café’ 字符 串 有 4 个 Unicode 字符 。 

使 用 UTF-8 把 str 对 象 编码 成 bytes 对 象 。 

bytes 字面 量 以 b 开头 。 

字 节 序列 b 有 5 个 字 节 (在 UTF-8 中 ,“6” 的 码 位 编码 成 两 个 字 节 ) 。 
使 用 UTF-8 把 bytes 对 象 解码 成 str 对 象 。 

















如 果 想 帮助 自己 记 住 .decode() 和 .encode() 的 区 别 ， 可 以 把 字 节 序列 想 成 
Wa MEE L ES Wee TR, HE Unicode 字符 串 想 成 “人 类 可 读 ” 的 文本 。 那 
么 ， 把 字 节 序列 变 成 人 类 可 读 的 文本 字符 串 就 是 解码 ， 而 把 字符 串 变 成 用 于 
存储 或 传输 的 字 节 序列 就 是 编码 。 





虽然 Python 3 的 str 类 型 基本 相当 于 Python 2 的 unicode 类 型 ， 只 不 过 是 换 了 个 新 名 称 ， 
但 是 Python 3 的 bytes 类 型 却 不 是 把 str 类 型 换个 名 称 那 么 简单 ， 而 且 还 有 关系 紧密 的 
bytearray 类 型 。 因 此 ， 在 讨论 编码 和 解码 的 问题 之 前 ， 有 必要 先 来 介绍 一 下 二 进 制 序列 
类 型 。 


4.2 FUME 


新 的 二 进 制 序列 类 型 在 很 多 方面 与 Python 2 的 str 类 型 不 同 。 首 先 要 知道 ，Python 内 置 
了 两 种 基本 的 二 进 制 序列 类 型 : Python 3 引入 的 不 可 变 bytes 类 型 和 Python 2.6 添加 的 可 
变 bytearray 类 型 。(Python 2.6 也 引入 了 bytes 类 型 ， 但 那 只 不 过 是 str 类 型 的 别名 ， 与 
Python 3 的 bytes 类 型 不 同 。) 


bytes 或 bytearray 对 象 的 各 个 元 素 是 介 于 0~255 ( 含 ) 之 间 的 整数 ， 而 不 像 Python 2 的 
str 对 象 那 样 是 单个 的 字符 。 然 而 ， 二 进 制 序列 的 切片 始终 是 同一 类 型 的 二 进 制 序列 ， 包 
括 长 度 为 1 的 切片 ， 如 示例 4-2 所 示 。 


示例 4-2 包含 5 个 字 节 的 bytes 和 bytearray 对 象 
>>> cafe = bytes('café', encoding='utf_8') @ 
>>> cafe 
b'caf\xc3\xa9' 
>>> cafe[0] @ 

99 

>>> cafe[:1] © 

b'c' 

>>> cafe_arr = bytearray(cafe) 
>>> cafe_arr @ 
bytearray(b'caf\xc3\xa9') 

>>> cafe_arr[-1:] © 
bytearray(b'\xa9') 


O bytes 对 象 可 以 从 str 对 象 使 用 给 定 的 编码 构建 。 
O 各 个 元 素 是 range(256) 内 的 整数 。 

© bytes 对 象 的 切片 还 是 bytes 对 象 ， 即 使 是 只 有 一 个 字 节 的 切片 。 

Q bytearray 对 象 没 有 字面 量 句 法 ， 而 是 以 bytearray() 和 字 节 序列 字面 量 参数 的 形式 显示 。 
O bytearray 对 象 的 切片 还 是 bytearray HK, 

my_bytes[0] 获取 的 是 一 个 整数 ， 而 my_bytes[:1] 返回 的 是 一 个 长 度 为 1 的 
bytes 对 象 一 一 这 一 点 应 该 不 会 让 人 意外 。s[6] == s[:1] 只 对 str 这 个 序列 类 
型 成 立 。 不 过 ，str 类 型 的 这 个 行为 十 分 罕见 。 对 其 他 各 个 序列 类 型 来 说 ，s[i] 
返回 一 个 元 素 ， 而 siii] 返回 一 个 相同 类 型 的 序列 ， 里 面 是 sli] 元 素 。 
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虽然 二 进 制 序列 其 实 是 整数 序列 ， 但 是 它们 的 字面 量 表示 法 表明 其 中 有 ASCI SCA. A 
此 ， 各 个 字 闻 的 值 可 能 会 使 用 下 列 三 种 不 同 的 方式 显示 。 


。 可 打印 的 ASCII 范围 内 的 字 节 (从 空格 到 ~), EH ASCI 字符 本 身 。 
。 制 表 符 、 换 行 符 、 回 车 符 和 \ 对 应 的 字 节 ， 使 用 转 义 序列 \t、\n、\r 和 \\。 
。 其 他 字 节 的 值 ， 使 用 十 六 进 制 转 义 序列 (例如 ，\x99 是 空 字 节 ) 。 


因此 ， 在 示例 4-2 中 ， 我 们 看 到 的 是 b'caf\xc3\xa9': 前 3 个 字 节 b'caf' 在 可 打印 的 
ASCII 范围 内 ， 后 两 个 字 节 则 不 然 。 


除了 格式 化 方法 (format 和 format_map) FH JL “+ Ab BE Unicode 数据 的 方法 (包括 
casefold, isdecimal, isidentifier, isnumeric, isprintable FH encode) 之 外 ，str 类 
型 的 其 他 方法 都 支持 bytes 和 bytearray 类 型 。 这 意味 着 ， 我 们 可 以 使 用 熟悉 的 字符 串 方 
法 处 理 二 进 制 序列 ， 如 endswith, replace, strip, translate, upper 等 ， 只 有 少数 几 个 
其 他 方法 的 参数 是 bytes 对 象 ， 而 不 是 str 对 象 。 此 外 ， 如 果 正 则 表达 式 编 译 自 二 进 制 
序列 而 不 是 字符 串 ，re 模块 中 的 正则 表达 式 函 数 也 能 处 理 二 进 制 序列 。Python 3.0~3.4 不 
能 使 用 % 运算 符 处 理 二 进 制 序列 ， 但 是 根据 “PEP 461—Adding % formatting to bytes and 
bytearray” (https://www.python.org/dev/peps/pep-0461/) Python 3.5 应 该 会 支持 。 


二 进 制 序列 有 个 类 方法 是 str 没有 的 ， 名 为 fromhex， 它 的 作用 是 解析 十 六 进 制 数字 对 
(数字 对 之 间 的 空格 是 可 选 的 ) ， 构 建 二 进 制 序列 : 


>>> bytes.fromhex('31 4B CE A9') 
b'1K\xce\xa9' 


构建 bytes 或 bytearray 实例 还 可 以 调用 各 自 的 构造 方法 ， 传 入 下 述 参数 。 


。 一 个 str 对 象 和 一 个 encoding 关键 字 参 数 。 

。 一 个 可 迭代 对 象 ， 提 供 0~255 之 间 的 数值 。 

。 一 个 整数 ， 使 用 空 字 节 创建 对 应 长 度 的 二 进 制 序列 。[Python 3.5 会 把 这 个 构造 方法 标 
WA “ERRI”, Python 3.6 会 将 其 删除 。 参 见 “PEP 467—Minor API improvements for 
binary sequences” (https:/www.python.org/dev/peps/pep-0467/)。] 

。 一 个 实现 了 缓冲 协议 的 对 象 (如 bytes、bytearray、memoryview、array.array) ; 此 时 ， 
把 源 对 象 中 的 字 节 序列 复制 到 新 建 的 二 进 制 序列 中 。 


使 用 缓冲 类 对 象 构建 二 进 制 序列 是 一 种 低层 操作 ， 可 能 涉及 类 型 转换 。 示 例 4-3 做 了 演示 。 
示例 4-3 ”使 用 数组 中 的 原始 数据 初始 化 bytes 对 象 


>>> import array 

>>> numbers = array.array('h', [-2, -1, 0, 1, 2]) © 
>>> octets = bytes(numbers) @ 

>>> octets 
b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00' © 


@ 指定 类 型 代码 h， 创 建 一 个 短 整数 (16 位 ) 数组 。 
O octets 保存 组 成 numbers 的 字 节 序列 的 副本 。 
O 这 些 是 表示 那 5 个 短 整数 的 10 个 字 节 。 









































































































































使 用 缓冲 类 对 象 创 建 bytes 或 bytearray 对 象 时 ， 始 终 复制 源 对 象 中 的 字 市 序列 。 与 之 相反 ， 
memoryview 对 象 允许 在 二 进 制 数据 结构 之 间 共 享 内 存 。 如 果 想 从 二 进 制 序列 中 提取 结构 化 信 
息 ，struct 模块 是 重要 的 工具 。 下 一 市 会 使 用 这 个 模块 处 理 bytes 和 memoryview 对 象 。 


结构 体 和 内 存 视图 


struct 模块 提供 了 一 些 函 数 ， 把 打包 的 字 市 序列 转换 成 不 同类 型 字段 组 成 的 元 组 ， 还 有 
一 些 函 数 用 于 执行 反问 转换 ， 把 元 组 转换 成 打包 的 字 节 序列 。struct 模块 能 处 理 bytes、 
bytearray 和 memoryview 对 象 。 


如 2.9.2 节 所 述 ，memoryview 类 不 是 用 于 创建 或 存储 字 节 序列 的 ， 而 是 共享 内 存 ， 让 你 访 
问 其 他 二 进 制 序列 、 打 包 的 数组 和 缓冲 中 的 数据 切片 ， 而 无 需 复制 字 节 序列 ， 例 如 Python 
Imaging Library (PIL)“ 就 是 这 样 处 理 图 像 的 。 


示例 4-4 展示 了 如 何 使 用 memoryview 和 struct 提取 一 个 GIF 图 像 的 宽度 和 高 度 。 
示例 4-4 使 用 memoryview 和 struct 查看 一 个 GIF 图 像 的 首部 


>>> import struct 

>>> fmt = '<3s3sHH' # © 

>>> with open('filter.gif', 'rb') as fp: 
img = memoryview(fp.read()) #@ 





















































>>> header = img[:10] # © 

>>> bytes(header) # @ 
b'GIF89a+\x02\xe6\x00' 

>>> struct.unpack(fmt, header) #@ 
(b'GIF', b'89a', 555, 230) 

>>> del header # © 

>>> del img 


O 结构 体 的 格式 : < 是 小 字 节 序 ，3s3s 是 两 个 3 字 节 序列 ，HH 是 两 个 16 位 二 进 制 整数 。 
O 使 用 内 存 中 的 文件 内 容 创 建 一 个 memoryview 对 象 …… 

© …… 然 后 使 用 它 的 切片 再 创建 一 个 nemoryview 对 象 ， 这 里 不 会 复制 字 节 序列 。 

O 转换 成 字 节 序列 ， 这 只 是 为 了 显示 ; 这 里 复制 了 10 字 节 。 

© 拆 包 memoryview 对 象 ， 得 到 一 个 元 组 ， 包 含 类 型 、 版 本 、 宽 度 和 高 度 。 

© 删除 引用 ， 释 放 memoryview 实例 所 占 的 内 存 。 

注意 ，memoryview 对 象 的 切片 是 一 个 新 memoryview MR, MARA HPI. [EE 
的 技术 审 校 之 一 Leonardo Rochael 指出 ， 如 果 使 用 mmap 模块 把 图 像 打 开 为 内 存 映射 文件 
那么 会 复制 少量 字 闻 。 本 书 不 会 讨论 mmap， 如 果 你 经 常 读 取 和 修改 二 进 制 文件 ， 可 以 阅读 
“mmap—Memory-mapped file support” (https://docs.python.org/3/library/mmap.html) 来 进 一 
GPA]. | 

本 书 不 会 深入 介绍 memoryview 和 struct 模块 ， 如 果 要 处 理 二 进 制 数据 ， 可 以 阅读 它们 的 文 
#4: “Built-in Types » Memory Views” (https://docs.python.org/3/library/stdtypes.html#memory- 

























































































iE 2: Pillow (https://pillow.readthedocs.org/en/latest/) 是 PIL 最 活跃 的 派生 库 。 
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views) 和 “struct 一 Interpret bytes as packed binary data” (https://docs.python.org/3/library/ 
struct.html) 。 


简要 探讨 Python 的 二 进 制 序列 类 型 之 后 ， 下 面 说 明 如 何在 它们 和 字符 串 之 间 转 换 。 


4.3 ”基本 的 编 解 码 器 








Python 自 带 了 超过 100 种 编 解 码 器 (codec, encoder/decoder)， 用 于 在 文本 和 字 节 之 间 相互 


转换 。 每 个 编 解码 器 都 有 一 个 名 称 ， 如 'utf_8'， 











而 且 经 常 有 几 个 别名 ， 如 'utf8', 'utf- 


8' 和 'U8'。 这 些 名 称 可 以 传 给 open()、str.encode()、bytes.decode() 4 PK ALA encoding 


参数 。 示 例 4-5 使 月 











日 3 个 编 解 码 器 把 相同 的 文本 编码 成 不 同 的 字 市 序列 。 


示例 4-5 使 用 3 个 编 解 码 器 编码 字符 串 “El Nifio”， 得 到 的 字 节 序列 差异 很 大 
>>> for codec in ['latin_1', 'utf 8', 'utf_16']: 
print(codec, 'El Niflo'.encode(codec), sep='\t') 


latin 1 b'El Ni\xf1o' 
b'EL Ni\xc3\xb1o' 
utf_16 b'\xff\xfeE\x001\x00 \xOON\x00i\x00\xf1\x000\x00' 


utf_8 


图 4-1 展示 了 不 同 编 解码 器 对 “A” 和 高 音 





谱 号 等 


字符 编码 








H Jf 于 
种 是 可 变 长 度 的 多 字 节 编码 。 

字符 码 位 ascii latin1 cp1252 cp437 gb2312 utf-8 utf-16le 
A U+0041 41 41 41 41 41 41 41 00 
é U+00BF 六 BF BF A8 is C2 BF BF 00 
A -U+00C3 c3 c3 i x C3 83 c3 00 
a U+00E1 2 E1 E1 AO A8 A2 C3 A1 E1 00 
Q U+03A9 ® i * EA A6 B8 CE A9 A9 03 
ia U+06BF is > is $ = DA BF BF 06 
i U+201C * + 93 i Ai BO E2 80 9C 1C 20 
€ U+20AC 下 宣 80 £ * E2 82 AC AC 20 
r U+250C * a ij DA A9 BO E2 94 8C oC 25 
气 U+6C14 £ * ¥ * C6 F8 E6 BO 94 14 6C 
氧 U+6C23 * z * t * E6 BO A3 23 6C 
é U+1D11E * ia ig 入 A FO 9D 84 9E 34 D8 1E DD 











4-1:12 个 字符 ,它们 的 码 位 及 不 同 编码 的 字 节 表 述 (十 六 进 制 , 星 号 表明 该 编码 不 支持 表示 该 字符 ) 


图 4-1 中 的 星 号 表明 ， 某 些 编 码 (如 ASCI 和 多 字 节 的 GB2312) 不 能 表示 所 有 Unicode 
FIF. ZA, UTF 编码 上 


4-1 中 展示 的 是 



































的 设计 目的 就 是 处 理 每 





些 典 型 编码 ， 介 绍 如 下 。 








个 Unicode 码 位 。 





latin1 (BN iso8859_1) 


一 种 重要 的 编码 ， 是 其 他 编码 的 基础 ， 例 如 cp1252 和 Unicode (7ER, latini 与 
cp1252 的 字 节 值 是 一 样 的 ， 甚 至 连 码 位 也 相同 ) 。 


cpi252 
Microsoft 制定 的 latini 超 集 ， 添 加 了 有 用 的 符号 ， 例 如 弯 引 号 和 € (欧元 ) ， 有些 
Windows 应 用 把 它 称 为 “ANSI”， 但 它 并 不 是 ANSI 标准 。 
cp437 
IBM PC 最 初 的 字符 集 ， 包 含 框图 符号 。 与 后 来 出 现 的 latint 不 兼容 。 
gb2312 
用 于 编码 简体 中 文 的 陈旧 标准 ， 这 是 亚洲 语言 中 使 用 较 广 泛 的 多 字 节 编码 之 一 。 
utf-8 
目前 Web 中 最 常见 的 8 位 编码 ， 与 ASCI 兼容 ( 纯 ASCU 文本 是 有 效 的 UTF-8 文本 )。 
utf-16le 


UTF-16 的 16 位 编码 方案 的 一 种 形式 ， 所 有 UTF-16 支持 通过 转 义 序列 ( 称 为 “代理 
对 ”，surrogate pair) 表示 超过 U+FFFF 的 码 位 。 






































UTF-16 取代 了 1996 年 发 布 的 Unicode 1.0 编码 (UCS-2)。 这 个 编码 在 很 多 
系统 中 仍 在 使 用 ， 但 是 支持 的 最 大 码 位 是 U+FFFF。 从 Unicode 6.3 $, 分 
配 的 码 位 中 有 超过 50% 在 U+10000 以 上 ， 包 括 逐 渐 流 行 的 表情 符号 (emoji 
pictograph) 。 














概述 常规 的 编码 之 后 ， 下 面 要 处 理 编码 和 解码 过 程 中 存在 的 问题 。 


4.4 了 解 编 解 码 问题 


虽然 有 个 一 般 性 的 UnicodeError 异常 ， 但 是 报告 错误 时 几乎 都 会 指明 有 具体 的 异常 : 
UnicodeEncodeError (把 字符 串 转 换 成 二 进 制 序列 时 ) 或 UnicodeDecodeError (把 二 进 
制 序列 转换 成 字符 串 时 )。 如 果 源 码 的 编码 与 预期 不 符 ， 加 载 Python 模块 时 还 可 能 抛 出 
SyntaxError。 接 下 来 的 几 节 说 明 如 何 处 理 这 些 错误 。 


出 现 与 Unicode 有 关 的 错误 上 时， 首先 要 明确 异常 的 类 型 。 导致 编码 问题 的 
是 UnicodeEncodeError、UnicodeDecodeError， 还 是 如 SyntaxError 的 其 他 错 
误 ? 解决 问 题 之 前 必须 清楚 这 一 点 。 












































注 3: W3Techs 发 布 的 “Usage of character encodings for websites” (https://w3techs.com/technologies/overview/ 
character_encoding/all) 报告 指出 ， 截 至 2014 年 9 A, 81.4% 的 网 站 使 用 UTF-8;， 而 Built With 发 布 
的 “Encoding Usage Statistics” (http:Wtrends.builtwith.comy/encoding) 估计 的 比例 则 是 79.4%。 
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4.4.1 ”处理 UnicodeEncodeError 


多 数 非 UTF 编 解 码 器 只 能 处 理 Unicode 字符 的 一 小 部 分 子 集 。 把 文本 转换 成 字 节 序列 时 ， 
如 果 目 标 编码 中 没有 定义 某 个 字符 ， 那 就 会 抛 出 UnicodeEncodeError 异常 ， 除 非 把 errors 
参数 传 给 编码 方法 或 国 数 ， 对 错误 进行 特殊 处 理 。 处 理 错误 的 方式 如 示例 4-6 所 示 。 


示例 4-6 ”编码 成 字 贡 序列 : 成 功 和 错误 处 理 
>>> city = 'Sdo Paulo' 
>>> city.encode('utf_8') @ 
b'S\xc3\xa30 Paulo' 
>>> city.encode('utf_16') 
b'\xff\xfeS\x00\xe3\x000\x00 \x0OP\x00a\x00u\x0O0L\x000\x00' 
>>> city.encode('iso8859_1') @ 
b'S\xe30 Paulo' 
>>> city.encode('cp437') © 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
File "/.../lib/python3.4/encodings/cp437.py", line 12, in encode 
return codecs.charmap_encode(input,errors,encoding_map) 
UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in 
position 1: character maps to <undefined> 
>>> city.encode('cp437', errors='ignore') @ 
b'So Paulo' 
>>> city.encode('cp437', errors='replace') @ 
b'S?o Paulo' 
>>> city.encode('cp437', errors='xmlcharrefreplace') O 
b'S&#227;0 Paulo' 


O 'utf_? 编码 能 处 理 任何 字符 串 。 

@ '1s08859_1' 编码 也 能 处 理 字 符 串 'Saio Paulo’, 

© '¢p437' 无 法 编码 'i ( 带 波形 符 的 “a”)。 上 默认 的 错误 处 理 方式 'strict' fh Unicode- 
EncodeError, 

O error="ignore' 处 理 方 式 悄 无 声息 地 跳 过 无 法 编码 的 字符 ， 这 样 做 通常 很 是 不 妥 。 

© 编码 时 指定 error='replace' ， 把 无 法 编码 的 字符 替换 成 '?'， 数据 损 坏 了， 但 是 用 户 知 
道 出 了 问题 。 

Q ‘xmlcharrefreplace’ 把 无 法 编码 的 字符 替换 成 XML 实体 。 


编 解码 器 的 错误 处 理 方式 是 可 扩展 的 。 你 可 以 为 errors 参数 注册 额外 的 字符 
HB, 方法 是 把 一 个 名 称 和 一 个 错误 处 理 函 数 传 给 codecs.register_error EA 
数 。 参 见 codecs.register_error 函数 的 文档 (https://docs.python.org/3/library/ 


codecs.html#codecs.register_error) 5 


























4.4.2 ”处 理 UnicodeDecodeError 


不 是 每 一 个 字 节 都 包含 有 效 的 ASCI 字符 ， 也 不 是 每 一 个 字符 序列 都 是 有 效 的 UTF-8 或 
UTF-16。 因 此 ， 把 二 进 制 序列 转换 成 文本 时 ， 如 果 假 设 是 这 两 个 编码 中 的 一 个 ， 遇 到 无 法 
转换 的 字 节 序列 时 会 抛 出 UnicodeDecodeError。 
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另 一 方面 ,很 多 陈旧 的 8 位 编码 一 一 如 'cp1252'、'iso8859_1' 和 'kot8_r' 一 一 能 解码 任 
何 字 节 序列 流 而 不 抛 出 错误 ， 例 如 随机 噪声 。 因 此 ， 如 果 程 序 使 用 错误 的 8 位 编码 ， 解 码 
过 程 悄 无 声息 ， 而 得 到 的 是 无 用 输出 。 























乱码 字符 称 为 鬼 符 (gremlin) 或 mojibake (XF, “RELE” HHX). 


示例 4-7 演示 了 使 用 错误 的 编 解码 器 可 能 出 现 鬼 符 或 抛 出 UnicodeDecodeError。 
示例 4-7 ”把 字 布 序列 解码 成 字符 串 ， 成 功 和 错误 处 理 


>>> octets = b'Montr\xe9al' @ 
>>> octets.decode('cpi252') @ 


"Montréal' 

>>> octets.decode('iso8859_7') © 
"Montrial' 

>>> octets.decode('koi8_r') @ 
"MontryatL 


>>> octets.decode('utf 8') © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
UnicodeDecodeError: 'utf-8' codec can't decode byte Oxe9 in position 5: 
invalid continuation byte 
>>> octets.decode('utf_8', errors='replace') O 
"Montreal 


O 这 些 字 市 序列 是 使 用 latini 编码 的 “MontrEal”; '\xe9' 字 节 对 应 “6”。 

@ 可 以 使 用 'cp1252' (Windows 1252) 解码 ， 因 为 它 是 latini 的 有 效 超 集 。 

© ISO-8859-7 用 于 编码 希腊 文 ， 因 此 无 法 正确 解释 '\xe9' 字 市 ， 而 且 没 有 抛 出 错误 。 

O KOI8-R 用 于 编码 俄 文 ， 这 里 ，'\xe9' 表示 西里 尔 字 母 “H”。 

© 'utf_8' 编 解 码 器 检测 到 octets 不 是 有 效 的 UTF-8 字符 串 ， 抛 出 UnicodeDecodeError。 

© 使 用 ‘replace’ 错误 处 理 方式 ，\xe9 替换 成 了 “@”( 码 位 是 U+FFFD)， 这 是 官方 指定 
的 REPLACEMENT CHARACTER (替换 字符 ) ， 表 示 未 知 字符 。 


4.4.3 ”使 用 预期 之 外 的 编码 加 载 模块 时 抛 出 的 syntaxError 


Python 3 默认 使 用 UTF-8 编码 源码 ，Python 2 (从 2.5 开始 ) 则 默认 使 用 ASCI。 如 果 加 载 
的 .py 模块 中 包含 UTF-8 之 外 的 数据 ， 而 且 没 有 声明 编码 ， 会 得 到 类 似 下 面 的 消息 : 
SyntaxError: Non-UTF-8 code starting with '\xe1' in file ola.py on line 


1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ 
for details 


GNU/Linux 和 OS X 系统 大 都 使 用 UTF-8， 因 此 打开 在 Windows 系统 中 使 用 cp1252 编码 
的 .py 文件 时 可 能 发 生 这 种 情况 。 注 意 ， 这 个 错误 在 Windows 版 Python 中 也 可 能 会 发 生 ， 
因为 Python 3 为 所 有 平台 设置 的 默认 编码 都 是 UTF-8。 
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为 了 修正 这 个 问题 ， 可 以 在 文件 顶部 添加 一 个 神奇 的 coding 注释 ， 如 示例 4-8 所 示 。 
示例 4-8 olapy:“ 你 好 ， 世 界 ! “的 葡萄 牙 语 版 


# coding: cp1252 


print('Ola, Mundo!') 


现在 ，Python 3 的 源码 不 再 限于 使 用 ASCII， 而 是 默认 使 用 优秀 的 UTF-8 
编码 ， 因 此 要 修正 源码 的 陈旧 编码 (an 'cp1252') 问题 ， 最 好 将 其 转换 成 
UTF-8， 别 去 麻烦 coding 注释 。 如 果 你 用 的 编辑 器 不 支持 UTF-8， 那 么 是 时 
候 换 一 个 了 。 























源码 中 能 不 能 使 用 非 ASCII 名 称 
Python 3 允许 在 源码 中 使 用 非 ASCI 标识 符 : 


>>> ação = 'PBR' # ação = stock 
>>> g = 10**-6 # g = epsilon 


有 些 人 不 喜欢 这 么 做 。 支 持 始终 使 用 ASCII 标识 符 的 人 认为 ， 这 样 便于 所 有 人 阅读 
和 编辑 代码 。 这 些 人 没 切 中 要 害 : 源码 应 该 便于 目标 群体 阅读 和 编辑 ， 而 不 是 “所 有 
人 ”。 如 果 代 码 属于 跨国 公司 ,或 者 是 开源 的 ， 想 让 来 自 世 界 各 地 的 人 作 贡 献 ， 那 么 标 
识 符 应 该 使 用 英语 ， 也 就 是 说 只 能 使 用 ASCI 字符 。 

但 是 ， 如 果 你 是 巴西 的 一 位 老师 ， 那 么 使 用 葡萄 牙 语 正确 拼写 变量 和 函数 名 更 便于 学 
生 阅 读 代 码 。 而 且 ， 这 些 学 生 在 本 地 化 的 键盘 中 不 难 打 出 变 音 符号 和 重音 元 音字 母 。 
现在 ，Python 能 解析 Unicode 名 称 ， 而 且 源 码 的 默认 编码 是 UTF-8， 我 觉得 没有 任何 
理由 使 用 不 带 重音 符号 的 葡萄 牙 语 编写 标识 符 。 在 Python 2 中 确实 不 能 这 么 做 ， 除 非 
你 也 想 使 用 Python 2 运行 代码 ， 否 则 不 必 如 此 。 如 果 使 用 葡 欧 牙 语 命名 标识 符 却 不 带 
重音 符号 的 话 ， 这 样 写 出 的 代码 对 任何 人 来 说 都 不 易 阅 读 。 





这 是 我 作为 说 葡萄 牙 语 的 巴西 人 的 观点 ， 不 过 我 相信 也 送 用 于 其 他 国家 和 文化 :选择 
对 团队 而 言 易于 阅读 的 人 类 语言 ， 然 后 使 用 正确 的 字符 拼写 。 























假如 有 个 文本 文件 ， 里 面 保存 的 是 源码 或 诗句 ， 但 是 你 不 知道 它 的 编码 。 如 何 查 明 真正 的 
编码 呢 ?” 下 一 市 使 用 一 个 推荐 的 库 回 答 这 个 问题 。 


4.4.4 如 何 找 出 字 节 序列 的 编码 
如 何 找 出 字 节 序列 的 编码 ? 简单 来 说 ， 不 能 。 必 须 有 人 告诉 你 。 














有 些 通信 协议 和 文件 格式 ， 如 HTTP 和 XML， 包 含 明确 指明 内 容 编 码 的 首部 。 可 以 肯 
定 的 是 ， 某 些 字 节 流 不 是 ASCII， 因 为 其 中 包含 大 于 127 的 字 节 值 ， 而 且 制 定 UTF-8 和 
UTF-16 的 方式 也 限制 了 可 用 的 字 节 序列 。 不 过 即便 如 此 ， 我 们 也 不 能 根据 特定 的 位 模式 
来 100% 确定 二 进 制 文件 的 编码 是 ASCII 或 UTF-8。 
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然而 ， 就 像 人 类 语言 也 有 规则 和 限制 一 样 ， 只 要 假定 字 节 流 是 人 类 可 读 的 纯 文本 ， 就 可 
能 通过 试探 和 分 析 找 出 编码 。 例 如 ， 如 果 b'\x00' 字 节 经 常 出 现 ， 那 么 可 能 是 16 位 或 32 
位 编码 ， 而 不 是 8 位 编码 方案 ， 因 为 纯 文 本 中 不 能 包含 空 字符 ， 如 果 字 节 序 列 b' \x26\ 
x00' 经 常 出现 ， 那 么 可 能 是 UTF-16LE 编码 中 的 空格 字符 〈U+0020) ， 而 不 是 鲜 为 人 知 的 
U+2000 EN QUAD 字符 一 一 谁 知 道 这 是 什么 呢 ! 


统一 字符 编码 侦 测 包 Chardet (https://pypi.python.org/pypi/chardet) 就 是 这 样 工作 的 ， 它 能 
识别 所 支持 的 30 种 编码 。Chardet 是 一 个 Python 库 ， 可 以 在 程序 中 使 用 ， 不 过 它 也 提供 了 
命令 行 工具 chardetect。 下 面 是 它 对 本 章 书稿 文件 的 检测 报告 : 


$ chardetect 04-text-byte.asciidoc 
04-text-byte.asciidoc: utf-8 with confidence 0.99 


二 进 制 序列 编码 文本 通常 不 会 明确 指明 自己 的 编码 ， 但 是 UTF 格式 可 以 在 文本 内 容 的 开头 
添加 一 个 字 节 序 标记 。 参 见 下 一 节 。 


4.4.5 BOM: 有 用 的 鬼 符 
在 示例 4-5 中 ， 你 可 能 注意 到 了 ，UTF-16 编码 的 序列 开头 有 几 个 额外 的 字 节 ， 如 下 所 示 : 


>>> u16 = 'EL Nifo'.encode('utf_16') 
>>> U16 
b'\xff\xfeE\x001L\x00 \xOON\x00i\x00\xf1\x000\x00' 


我 指 的 是 b'\xff\xfe'。 这 是 BOM, Bl 7 4872 (byte-order mark)， 指 明 编码 时 使 用 
Intel CPU 的 小 字 节 序 。 


在 小 字 节 序 设备 中 ， 各 个 码 位 的 最 低 有 效 字 节 在 前 面 : 字母 'E' 的 码 位 是 U+0045 (十 进 
制 数 69)， 在 字 节 偏 移 的 第 2 位 和 第 3 位 编码 为 69 和 0。 


>>> list(u16) 
[255, 254, 69, 0, 108, 0, 32, 0, 78, ©, 105, 0, 241, 0, 111, 0] 


在 大 字 节 序 CPU 中 ， 编 码 顺 序 是 相反 的 ; 'E' 编码 为 0 和 69. 


为 了 避免 混淆 ，UTF-16 编码 在 要 编码 的 文本 前 面 加 上 特殊 的 不 可 见 字符 ZERO WIDTH NO- 
BREAK SPACE (U+FEFF)。 在 小 字 节 序 系统 中 ， 这 个 字符 编码 为 b'\xff\xfe' (十 进 制 数 
255, 254)。 因 为 按照 设计 ，U+FFFE 字符 不 存在 ， 在 小 字 节 序 编码 中 ， 字 节 序 列 b' \xff\ 
xfe' 必定 是 ZERO WIDTH NO-BREAK SPACE， 所 以 编 解 码 器 知道 该 用 哪个 字 节 序 。 


UTF-16 有 两 个 变种 : UTF-16LE， 显 式 指 明 使 用 小 字 节 序 ，UTF-16BE， 显 式 指 明 使 用 大 字 
节 序 。 如 果 使 用 这 两 个 变种 ， 不 会 生成 BOM : 


>>> U16Le = 'El Niño'.encode('utf_16le') 

>>> list(u16le) 

[69, ©, 108, ©, 32, ©, 78, ©, 105, 0, 241, ©, 111, 0] 
>>> U16be = 'El Niño'.encode('utf_16be') 

>>> list(u16be) 

[0, 69, 0, 108, 0, 32, 0, 78, 0, 105, 0, 241, 0, 111] 


如 果 有 BOM, UTF-16 编 解码 器 会 将 其 过 滤 掉 ， 为 你 提供 没有 前 导 ZERO WIDTH NO-BREAK 
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SPACE 字符 的 真正 文本 。 根 据 标准 ， 如 果 文 件 使 用 UTF-16 编码 ， 而 且 没 有 BOM， 那 么 应 
该 假定 它 使 用 的 是 UTF-16BE (大 字 节 序 ) 编码 。 然 而 ，Intel x86 架构 用 的 是 小 字 节 序 ， 
因此 有 很 多 文件 用 的 是 不 带 BOM 的 小 字 节 序 UTF-16 编码 。 


与 字 节 序 有 关 的 问题 只 对 一 个 字 (wod) 占 多 个 字 节 的 编码 (如 UTF-16 和 UTF-32) 有 影 
响 。UTF-8 的 一 大 优势 是 ， 不 管 设备 使 用 哪 种 字 节 序 ， 生 成 的 字 节 序列 始终 一 致 ， 因 此 不 
需要 BOM。 尽 管 如 此 ， 某 些 Windows 应 用 (尤其 是 Notepad) 依然 会 在 UTF-8 编码 的 文 
件 中 添加 BOM;， 而 且 ，Excel 会 根据 有 没有 BOM 确定 文件 是 不 是 UTF-8 编码 ， 否 则 ， 它 
假设 内 容 使 用 Windows 代码 页 (codepage) 编码 。UTF-8 编码 的 U+FEFF 字符 是 一 个 三 
字 节 序列 : b'\xef\xbb\xbf', 。 因 此 ， 如 果 文 件 以 这 三 个 字 节 开头 ， 有 可 能 是 带 有 BOM 的 
UTF-8 文件 。 然 而 ，Python 不 会 因为 文件 以 b'\xef\xbb\xbf' 开头 就 自动 假定 它 是 UTF-8 
编码 的 。 


下 面 换个 话题 ， 讨 论 Python 3 处 理 文本 文件 的 方式 。 


4.5 处 理 文本 文件 


处 理 文本 的 最 佳 实践 是 “Unicode 三 明治 ”( 如 图 4-2 所 示 )。 ”意思 是 ， 要 尽早 把 输入 (Bil 
如 读 取 文件 时 ) 的 字 市 序列 解码 成 字符 串 。 这 种 三 明治 中 的 “肉片 ”是 程序 的 业务 逻辑 ， 
在 这 里 只 能 处 理 字符 串 对 象 。 在 其 他 处 理 过 程 中 ， 一 定 不 能 编码 或 解码 。 对 输出 来 说 ， 则 
要 尽量 晚 地 把 字符 串 编码 成 字 节 序列 。 多 数 Web 框架 都 是 这 样 做 的 ， 使 用 框架 时 很 少 接触 
字 布 序列 。 例 如 ， 在 Django 中 ， 视 图 应 该 输出 Unicode FAR; Django 会 负责 把 响应 编 
码 成 字 节 序列 ， 而 且 默认 使 用 UTF-8 编码 。 
















































































Unicode 三 明治 


>str ism anstines, 


lOO” str 


str > 编码 输出 的 文本 。 


并 
eS 
oe 


里 文本 ， 

















4-2; Unicode 三 明治 一 一 目前 处 理 文本 的 最 佳 实践 


在 Python 3 中 能 轻松 地 采纳 Unicode 三 明治 的 建议 ， 因 为 内 置 的 open 函数 会 在 读 取 文 件 时 
做 必要 的 解码 ， 以 文本 模式 写 人 文件 时 还 会 做 必要 的 编码 ， 所 以 调用 my_file.read() 方法 











注 4; 我 第 一 次 见 到 “Unicode 三 明治 ”这 种 说 法 是 在 Ned Batchelder 在 US PyCon 2012 上 所 做 的 精彩 演讲 中 : 
“Pragmatic Unicode” (http://nedbatchelder.com/text/unipain/unipain.html) 。 
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得 到 的 以 及 传 给 my_file.write(text) 方法 的 都 是 字符 串 对 象 。” 

可 以 看 出 ， 处 理 文本 文件 很 简单 。 但 是 ， 如 果 依 赖 默认 编码 ， 你 会 遇 到 麻烦 。 
看 一 下 示例 4-9 中 的 控制 台 会 话 。 你 能 发 现 问题 吗 ? 

示例 4-9 一 个 平台 上 的 编码 问题 (如 果 在 你 的 机 器 上 运行 ， 它 可 能 会 发 生 ， 也 可 能 不 会 ) 


>>> open('cafe.txt', 'w', encoding='utf_8').write('café') 

4 

>>> open('cafe.txt').read() 

'cafÃo' 
问题 是 ， 写 入 文件 时 指定 了 UTF-8 编码 ， 但 是 读 取 文件 时 没有 这 人 么 做 ， 因 此 Python 假定 
要 使 用 系统 默认 的 编码 (Windows 1252)， 于 是 文件 的 最 后 一 个 字 节 解码 成 了 字符 'Ae ' ， 
而 不 是 'é'。 


我 是 在 Windows 7 中 运行 示例 4-9 的 。 在 新 版 GNU/Linux 或 Mac OS X 中 运行 同样 的 语句 

\ 会 出 问题 ， 因 为 这 几 个 操作 系统 的 默认 编码 是 UTF-8， 让 人 误 以 为 一 切 正常 。 如 果 打 开 
文件 是 为 了 写 入 ， 但 是 没有 指定 编码 参数 ， 会 使 用 区 域 设置 中 的 默认 编码 ， 而 且 使 用 那个 
码 也 能 正确 读 取 文 件 。 但 是 ， 如 果 脚 本 要 生成 文件 ， 而 字 节 的 内 容 取 决 于 平台 或 同一 平 
台中 的 区 域 设 置 ， 那 么 就 可 能 导致 兼容 问题 。 


需要 在 多 台 设 备 中 或 多 种 场合 下 运行 的 代码 ， 一 定 不 能 依赖 默认 编码 。 打 开 
文件 时 始终 应 该 明确 传人 encoding= 参数 ， 因 为 不 同 的 设备 使 用 的 默认 编码 
可 能 不 同 ， 有 时 隔 一 天 也 会 发 生变 化 。 
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示例 4-9 中 有 个 奇怪 的 细节 : 第 一 个 语句 中 的 write 函数 报告 写 入 了 4 个 字符 ,但 是 下 一 
行 读 取 时 却 得 到 了 5 个 字符 。 示 例 4-10 是 对 示例 4-9 的 扩展 ， 对 这 个 问题 以 及 其 他 细 贡 做 
了 说 明 。 


示例 4-10 ”仔细 分 析 在 Windows 中 运行 的 示例 4-9， 找 出 并 修正 问题 
>>> fp = open('cafe.txt', 'w', encoding='utf_8') 
>>> fp Q 
<_io.TextIOWrapper name='cafe.txt' mode='w' encoding='utf_8'> 
>>> fp.write('café') 
4 @ 
>>> fp.close() 
>>> import os 
>>> os.Sstat('cafe.txt').st_size 

















5 © 
>>> fp2 = open('cafe.txt') 
>>> fp2 @ 


<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='cp1252'> 
>>> fp2.encoding @ 

"cp1252' 

>>> fp2.read() 





TE 5: Python 2.6 或 Python 2.7 用 户 要 使 用 io.open() 函数 才能 得 到 读 写 文件 时 自动 执行 的 解码 和 编码 操作 。 
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'cafAe' © 

>>> fp3 = open('cafe.txt', encoding='utf_8') @ 
>>> fp3 

<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='utf_8'> 
>>> fp3.read() 

‘café' O 

>>> fp4 = open('cafe.txt', 'rb') © 

>>> fp4 

<_io.BufferedReader name='cafe.txt'> 四 

>>> fp4.read() @ 

b'caf\xc3\xa9' 


O 默认 情况 下 ，open 函数 采用 文本 模式 ， 返 回 一 个 Text 10Wrapper 对 象 。 

@ 在 TextIOnrapper 对 象 上 调用 write 方法 返回 写 入 的 Unicode 字符 数 。 

© os.stat 报告 文件 中 有 5 个 字 节 ;UTF-8 编码 的 'é' 占 两 个 字 节 ，0xc3 和 0xa9。 

O 打开 文本 文件 时 设 有 显 式 指 定编 码 ， 返 回 一 个 TextIONrapper 对 象 ， 编 码 是 区 域 设置 中 
的 默认 值 。 

© TextIOnrapper 对 象 有 个 encoding 属性 ;查看 它 ， 发 现 这 里 的 编码 是 cp1252。 

QO 在 Windows cp1252 编码 中 ，0xc3 字 节 是 “A”( 带 波形 符 的 A), Oxa9 字 节 是 版 权 符号 。 

@ 使 用 正确 的 编码 打开 那个 文件 。 

O 结果 符合 预期 得 到 的 是 四 个 Unicode 字符 'café'。 

O 'rb' 标志 指明 在 二 进 制 模式 中 读 取 文 件 。 

© 返回 的 是 BufferedReader 对 象 ， 而 不 是 TextIONrapper 对 象 。 

O 读 取 返 回 的 字 节 序列 ， 结 果 与 预期 相符 。 


除非 想 判断 编码 ， 否 则 不 要 在 二 进 制 模式 中 打开 文本 文件 ， 即 便 如 此 ， 也 应 
该 使 用 Chardet， 而 不 是 重新 发 明 轮 子 (参见 4.4.4 节 )。 常 规 代 码 只 应 该 使 
用 二 进 制 模式 打开 二 进 制 文件 ， 如 光栅 图 像 。 






































示例 4-10 的 问题 是 ， 打 开 文 本 文件 时 依赖 默认 设置 。 默 认 设 置 有 许多 来 源 ， 参 见 下 一 市 。 


编码 默认 值 : 一 团 糟 


有 几 个 设置 对 Python VO 的 编码 默认 值 有 影响 ， 如 示例 4-11 中 的 default_encodings.py 脚本 
所 示 。 


示例 4-11 探索 编码 默认 值 


import sys, locale 


expressions = """ 
locale.getpreferredencoding() 
type(my_file) 
my_file.encoding 
sys.stdout.isatty() 
sys.stdout.encoding 
sys.stdin.isatty() 
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sys.stdin.encoding 
sys.stderr.isatty() 
sys.stderr.encoding 
sys.getdefaultencoding( ) 
sys.getfilesystemencoding() 


my_file = open('dummy', 'w') 


for expression in expressions.split(): 
value = eval(expression) 
print(expression.rjust(30), '->', repr(value)) 





示例 4-11 在 GNU/Linux (Ubuntu 14.04) 和 OS X (Mavericks 10.9) 中 的 输出 一 样 ， 表 明 
这 些 系统 中 始终 使 用 UTF-8: 


$ python3 default_encodings.py 
locale.getpreferredencoding() -> 'UTF-8' 
type(my_file) -> <class '_io.TextIOWrapper'> 

my_file.encoding -> 'UTF-8' 

sys.stdout.isatty() -> True 
sys.stdout.encoding -> 'UTF-8' 

sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'UTF-8' 

sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'UTF-8' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'utf-8' 


然而 ， 在 Windows 中 的 输出 有 所 不 同 ， 如 示例 4-12 所 示 。 


示例 4-12 在 Windows 7 (SP1) 巴西 版 中 的 cmd.exe 中 输出 的 默认 编码 ，PowerShell 输 
出 的 结果 相同 


Z:\>chcp @ 
Pagina de codigo ativa: 850 
Z:\>python default_encodings.py @ 
locale.getpreferredencoding() -> 'cp1252' © 
type(my_file) -> <class '_io.TextIOWrapper'> 
my_file.encoding -> 'cp1252' @ 
sys.stdout.isatty() -> True 日 
sys.stdout.encoding -> 'cp850' @ 
sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'cp850' 
sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'cp850' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'mbcs' 


@ chcp 输出 当前 控制 台 激 活 的 代码 页 : 850. 

@ 运行 default_encodings.py， 把 结果 输出 到 控制 台 。 
© locale.getpreferredencoding() 是 最 重要 的 设置 。 
O 文本 文件 默认 使 用 LocaLe.getpreferredencoding() 。 
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O 输出 到 控制 台中 ， 因 此 sys.stdout.isatty() 返回 True, 
@ 因此 ，sys.stdout.encoding 与 控制 台 的 编码 相同 。 


如 有 果 把 输出 重 定向 到 文件 ， 如 下 所 示 : 








Z:\>python default_encodings.py > encodings.log 


sys.stdout.isatty() 的 返回 值 会 变 成 False, sys.stdout.encoding 会 设 为 locale.getpre- 
ferredencoding()， 在 那 台 设备 中 是 'cp1252'。 


TERS, ANB 4-12 中 有 4 种 不 同 的 编码 。 




















如 果 打 开 文 件 时 没有 指定 encoding 参数 ， 默 认 值 由 locale.getpreferredencoding() 提供 
(在 示例 4-12 中 是 'cp1252'), 

如 果 设 定 了 PYTHONIOENCODING 环境 变量 (https://docs.python.org/3/using/cmdline.html#envvar- 
PYTHONIOENCODING), sys.stdout/stdin/stderr 的 编码 使 用 设 定 的 值 ， 否 则 ， 继 承 自 
所 在 的 控制 台 ; 如 果 输 入 /输出 重 定 向 到 文件 , 则 由 locale.getpreferredencoding() 定义 。 
Python 在 二 进 制 数据 和 字符 串 之 间 转 换 时 ， 内 部 使 用 sys .getdefaultencoding() 获得 的 
编码 ，Python 3 很 少 如 此 ， 但 仍 有 发 生 。" 这 个 设置 不 能 修改 。” 
sys.getfilesystemencoding() 用 于 编 解 码 文件 名 (不 是 文件 内 容 )。 把 字符 串 参 数 作 为 文件 
名 传 给 open() 函数 时 就 会 使 用 它 ， 如 果 传 人 的 文件 名 参数 是 字 闻 序列 ， 那 就 不 经 改动 直接 
传 给 OS API, “Unicode HOWTO” — X (https://docs.python.org/3/howto/unicode.html) 中 说 : 
“在 Windows 中 ，Python 使 用 mbes 这 个 名 称 引用 当前 配置 的 编码 。。 MBCS 是 Multi Byte 
Character Set (多 字 节 字符 集 ) 的 首 字母 缩写 ， 在 Windows 中 是 陈旧 的 变 长 编码 ， 如 gb2312 
或 Shift_]JIS, 而 不 是 UTF-8。[ 关 于 这 个 话题 ,Stack Overflow 中 有 一 个 很 好 的 回答 ，Difference 
between MBCS and UTF-8 on Windows” (http://stackoverflow.com/questions/3298569/difference- 


between-mbcs-and-utf-8-on-windows) , ] 

















在 GNU/Linux 和 OS X 中 ， 这 些 编码 的 默认 值 都 是 UTF-8， 而 且 多 年 来 都 是 
如 此 ， 因 此 VO 能 处 理 所 有 Unicode 字符 。 在 Windows 中 ， 不 仅 同 一 个 系统 
中 使 用 不 同 的 编码 ， 还 有 只 支持 ASCI 和 127 个 额外 的 字符 的 代码 页 (如 
'cp850' 或 'cp1252')， 而 且 不 同 的 代码 页 之 间 增 加 的 字符 也 有 所 不 同 。 因 
此 ， 若 不 多 加 小 心 ，Windows 用 户 更 容易 遇 到 编码 问题 。 


















































综 上 ，locale.getpreferredencoding() 返回 的 编码 是 最 重要 的 : 这 是 打开 文件 的 默认 编 
码 ， 也 是 重 定 向 到 文件 的 sys.stdout/stdin/stderr 的 默认 编码 。 然 而 ， 文 档 也 说 道 K 








注 6: 研究 这 个 话题 时 ， 我 在 Python 内 部 找 不 到 把 字 节 序列 转换 成 字符 串 的 情况 。Python 核心 开发 








者 Antoine Pitrou 在 comp.python.devel 邮件 列表 中 说 (http://article.zmane.org/gmane.comp.python. 
devel/110036), CPython 的 内 部 函数 “在 py3k 中 很 少 这 么 做 ”。 











注 7: Python 2 对 sys.setdefaultencoding 函数 的 使 用 方式 不 当 ，Python 3 的 文档 中 已 经 没有 这 个 函数 。 这 

















个 函数 是 供 核心 开发 者 使 用 的 ， 用 于 在 内 部 的 默认 编码 未 定时 设置 编码 。 在 comp.python.devel 邮件 
列表 的 那个 话题 中 (http://article.gmane.org/gmane.comp.python.devel/109916),Marc-André Lemburg 说 ， 
用 户 代 码 一 定 不 能 调用 sys.setdefaultencoding 函数 ， 而 且 对 CPython Kik, ZAJETE Python 2 中 只 
能 是 'ascii' ， 在 Python 3 中 只 能 是 'utf-8'。 
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部 分 ，https://docs.python.org/3/library/locale.html#iocale.getpreferredencoding) : 


locale.getpreferredencoding(do_setlocale=True) 


根据 用 户 的 偏好 设置 ， 返 回 文本 数据 的 编码 。 用 户 的 偏好 设置 在 不 同系 统 中 的 设 定 方 
式 不 同 ， 而 且 在 某 些 系统 中 可 能 无 法 通过 编程 方式 设置 ， 因 此 这 个 国 数 返 回 的 只 是 猜 
测 的 编码 …… 


因此 ， 关 于 编码 默认 值 的 最 佳 建议 是 : 别 依赖 默认 值 。 


如 果 遵 从 Unicode 三 明治 的 建议 ， 而 且 始 终 在 程序 中 显 式 指 定编 码 ， 那 将 避免 很 多 问题 。 
可 惜 ， 即 使 把 字 节 序列 正确 地 转换 成 字符 串 ， Unicode 仍 有 不 过 如 信誉 的 地 广 。 接 下 来 的 
两 节 讨 论 的 话题 对 ASCII 世界 来 说 很 简单 ， 但 是 在 Unicode 领域 就 变 得 相当 复杂 : 文本 规 
范 化 ( 即 为 了 比较 而 把 文本 转换 成 统一 的 表述 ) 和 排序 。 


4.6 ”为 了 正确 比较 而 规范 化 Unicode 字 符 串 


因为 Unicode 有 组 合 字 符 〈 变 音符 号 和 附加 到 前 一 个 字符 上 的 记号 ， 打 印 时 作为 一 个 整 
体 )， 所 以 字符 串 比 较 起 来 很 复杂 。 


例如 ，“café” 这 个 词 可 以 使 用 两 种 方式 构成 ， 分别 有 4 个 和 5 个 码 位 ， 但 是 结果 完全 一 样 : 


>>> si 



































'café' 

>>> s2 = 'cafe\u0301' 
>>> s1, s2 

('café', 'café') 

>>> len(s1), len(s2) 
(4, 5) 

>>> si == s2 

False 


U+0301 是 COMBINING ACUTE ACCENT， 加 在 “e” 后 面 得 到 “é”。 在 Unicode 标准 中 ，'é' 和 
'e\u0301' 这 样 的 序列 叫 “ 标 准 等 价 物 ”(canonical equivalent), ， 应 用 程序 应 该 把 它们 视 作 
相同 的 字符 。 但 是 ，Python 看 到 的 是 不 同 的 码 位 序列 ， 因 此 判定 二 者 不 相等 。 


这 个 问题 的 解决 方案 是 使 用 unicodedata.normalize 函数 提供 的 Unicode 规范 化 。 这 个 函数 
的 第 一 个 参数 是 这 4 个 字符 串 中 的 一 个 : 'NFC', 'NFD', 'NFKC' 和 'NFKD' 。 下 面 先 说 明 前 
两 个 。 

NFC (Normalization Form C) 使 用 最 少 的 码 位 构成 等 价 的 字符 串 ， 而 NFD 把 组 合 字符 分 
解 成 基 字 符 和 单独 的 组 合 字符 。 这 两 种 规范 化 方式 都 能 让 比较 行为 符合 预期 ; 


>>> from unicodedata import normalize 

>>> s1 = ‘café’ # 把 "e" 和 重音 符 组 合 在 一 起 

>>> s2 = 'cafe\u0301' # 分 解 成 "e" 和 重音 符 

>>> len(s1), len(s2) 

(4, 5) 

>>> Len(normalize('NFC', s1)), len(normalize('NFC', s2)) 
(4, 4) 

>>> Len(normalize('NFD', s1)), Len(normalize('NFD', s2)) 
(5, 5) 
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>>> normalize('NFC', s1) == normalize('NFC', s2) 
True 
>>> normalize('NFD', s1) == normalize('NFD', s2) 
True 


西方 键盘 通常 能 输出 组 合 字符 ， 因 此 用 户 输 入 的 文本 默认 是 NFC 形式 。 不 过 ， 安 全 起 
见 ， 保 存 文本 之 前 ， 最 好 使 用 normalize('NFC', user_text) 清洗 字符 串 。NEFC 也 是 W3C 
的 “Character Model for the World Wide Web: String Matching and Searching” 规 范 (https:// 
www.w3.org/TR/charmod-norm/) 推荐 的 规范 化 形式 。 


使 用 NFC 时 ， 有 些 单字 符 会 被 规范 成 另 一 个 单字 符 。 例 如 ， 电 阻 的 单位 欧姆 (CO) 会 被 
规范 成 希腊 字母 大 写 的 欧米 加 。 这 两 个 字符 在 视觉 上 是 一 样 的 ， 但 是 比较 时 并 不 相等 ， 因 
此 要 规范 化 ， 防 止 出 现 意外 


>>> from unicodedata import normalize, name 
>>> ohm = '\u2126' 

>>> name(ohm) 

"OHM SIGN' 

>>> ohm_c = normalize('NFC', ohm) 

>>> name(ohm_c) 

"GREEK CAPITAL LETTER OMEGA' 























>>> ohm == ohm_c 

False 

>>> normalize('NFC', ohm) == normalize('NFC', ohm_c) 
True 


在 另外 两 个 规范 化 形式 (NFKC 和 NFKD) 的 首 字母 缩 略 词 中 ， 字 母 玉 表示 “compatibility” 
(兼容 性 )。 这 两 种 是 较 严 格 的 规范 化 形式 ， 对 “兼容 字符 ”有 影响 。 虽 然 Unicode 的 目标 
是 为 各 个 字符 提供 “规范 的 ” 码 位 ， 但 是 为 了 兼容 现 有 的 标准 ， 有 些 字符 会 出 现 多 次 。 例 
如 ， 虽 然 希 腊 字母 表 中 有 “上 这 个 字母 〈 码 位 是 U+03BC, GREEK SMALL LETTER MU), ， 但 是 
Unicode 还 是 加 入 了 微 符 号 'u' (U+00B5), LME- latini 相互 转换 。 因 此 ， 微 符号 是 一 个 

“兼容 字符 "。 

TE NFKC 和 NFKD 形式 中 ， 各 个 兼容 字符 会 被 替换 成 一 个 或 多 个 “兼容 分 解 ”字符 ， 即 
便 这 样 有 些 格式 损失 ， 但 仍 是 “首选 ”表述 一 一 理想 情况 下 ， 格 式 化 是 外 部 标记 的 职责 ， 
不 应 该 由 Unicode 处 理 。 下 面 举 个 例子 。 二 分 之 一 '%' (U+00BD) 径 过 兼容 分 解 后 得 到 
的 是 三 个 字符 序列 '1/2'， 微 符号 'h' (U+00B5) 经 过 兼容 分 解 后 得 到 的 是 小 写字 母 ny 
(U+03BC), * 


下 面 是 NFKC 的 具体 应 用 : 


>>> from unicodedata import normalize, name 






































>>> half = '%' 

>>> normalize('NFKC', half) 
"172" 

>>> four_squared = '4?' 


>>> normalize('NFKC', four_squared) 








TE 8: 微 符号 是 “兼容 字符 "， 而 欧姆 符号 不 是 ， 这 还 真是 奇怪 。 因 此 ，NFC 不 会 改动 微 符 号 ， 但 是 会 把 欧 
姆 符号 改 成 大 写 的 欧米 加 ， 而 NFKC 和 NFKD 会 把 欧姆 和 微 符号 都 改 成 其 他 字符 。 














rap 

>>> micro = 'p' 

>>> micro_kc = normalize('NFKC', micro) 
>>> micro, micro_kc 

CH', RAR ) 

>>> ord(micro), ord(micro_kc) 

(181, 956) 

>>> name(micro), name(micro_kc) 

('MICRO SIGN', 'GREEK SMALL LETTER MU') 


使 用 '1/2' 替代 4" 可 以 接受 ， 微 符号 也 确实 是 小 写 的 希腊 字母 'p' ,但 是 把 '4?' 转换 成 
'42' 就 改变 原意 了 。 某 些 应 用 程序 可 以 把 '4?' 保存 为 '4<sup>2</sup>'， 但 是 normalize 
函数 对 格式 一 无 所 知 。 因 此 ，NFKC 或 NFKD 可 能 会 损失 或 曲解 信息 ， 但 是 可 以 为 搜索 
和 索引 提供 便利 的 中 间 表 述 : 用 户 搜索 '17 2 inch' 时 ， 如 果 还 能 找到 包含 '% inch' 的 文 
档 ， 那 么 用 户 会 感到 满意 。 











使 用 NFKC 和 NFKD 规范 化 形式 时 要 小 心 ， 而 且 只 能 在 特殊 情况 中 使 用 ， 例 
如 搜索 和 索引 ， 而 不 能 用 于 持久 存储 ， 因 为 这 两 种 转换 会 导致 数据 损失 。 














为 搜索 或 索引 准备 文本 时 ， 还 有 一 个 有 用 的 操作 ， 即 下 一 闻 讨 论 的 大 小 写 折 有 登 。 


46.1 大 小 写 折 和 县 
大 小 写 折 县 其 实 就 是 把 所 有 文本 变 成 小 写 ， 再 做 些 其 他 转换 。 这 个 功能 由 str.casefold() 
方法 (Python 3.3 新 增 ) 支持 。 

对 于 只 包含 latint 字符 的 字符 串 s, s.casefold() 得 到 的 结果 与 s.Lower() 一 样 ， 唯 有 两 
个 例外 : 微 符号 'p' 会 变 成 小 写 的 希腊 字母 “nu ”( 在 多 数字 体 中 二 者 看 起 来 一 样 ) ， 德 语 


Eszett (“sharps”, B) 会 变 成 “ss”。 


























>>> micro = 'p' 

>>> name(micro) 

"MICRO SIGN' 

>>> micro_cf = micro.casefold() 
>>> name(micro_cf) 

"GREEK SMALL LETTER MU' 

>>> micro, micro_cf 

Cus a") 

>>> eszett = 'R' 

>>> name(eszett) 

'LATIN SMALL LETTER SHARP S' 
>>> eszett_cf = eszett.casefold() 
>>> eszett, eszett_cf 

('B', 'ss') 


A Python 3.4 #2, str.casefold() 和 str.lower() 得 到 不 同 结果 的 有 116 个 码 位 。Unicode 
6.3 命名 了 110 122 个 字符 ， 这 只 占 0.11% 。 
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与 Unicode 相关 的 任何 问题 一 样 ， 大 小 写 折 姜 是 个 


= 
复杂 


的 问题 ， 有 很 多 语言 上 的 特殊 情况 ， 


但 是 Python 核心 团队 尽力 提供 了 一 种 方案 ， 能 满足 大 多 数 用 户 的 需求 。 
接 下 来 的 儿 市 将 使 用 这 些 规范 化 知识 来 开发 几 个 实用 的 函数 。 


4.6.2 ”规范 化 文本 匹配 实用 函数 
由 前 文 可 知 ，NFC 和 NFD 可 以 放心 使 用 ， 而 且 能 合 型 





比较 Unicode 字符 串 。 对 大 多 数 应 








用 来 说 ，NFC 是 最 好 的 规范 化 形式 。 不 区 分 大 小 写 的 比较 应 该 使 用 str .casefold()。 
如 果 要 处 理 多 语言 文本 ， 工 具 箱 中 应 该 有 示例 4-13 中 的 nfc_equal 和 fold_equal 函数 。 


示例 4-13 normeq.py: 比较 规范 化 Unicode 字符 串 


Utility functions for normalized Unicode string comparison. 


Using Normal Form C, case sensitive: 


>>> s1 = 'café' 

>>> S2 = 'cafe\u0301' 
>>> si == s2 

False 

>>> nfc_equal(si, s2) 
True 

>>> nfc_equal('A', 'a') 
False 


Using Normal Form C with case folding: 


>>> S3 = 'Strake' 

>>> s4 = 'strasse' 

>>> S3 == S4 

False 

>>> nfc_equal(s3, s4) 
False 

>>> fold_equal(s3, s4) 
True 

>>> fold_equal(si1, s2) 
True 

>>> fold_equal('A', 'a') 
True 


from unicodedata import normalize 


def nfc_equal(stri, str2): 


return normalize('NFC', str1) == normalize('NFC', str2) 


def fold_equal(stri, str2): 
return (normalize('NFC', stri).casefold() == 
Normalize('NFC', str2).casefold()) 





除了 Unicode 规范 化 和 大 小 写 折 全 (二 者 都 是 Unicode 标准 的 一 部 分 ) 之 外 ， 有 时 需要 进 
行 更 为 深入 的 转换 ， 例 如 把 ‘café’ 变 成 'cafe' 。 下 一 市 说 明 何 时 以 及 如 何 进 行 这 种 转换 。 


4.6.3 极端 “规范 化 ”: 去 掉 变 音符 号 
Google 搜索 涉及 很 多 技术 ， 甚 中 一 个 显然 是 忽略 变 音符 号 〈 如 重音 符 、 下 加 符 等 )， 至 少 
在 某 些 情况 下 会 这 么 做 。 去 掉 变 音符 号 不 是 正确 的 规范 化 方式 ， 因 为 这 往往 会 改变 词 的 意 
思 ， 而 且 可 能 误 判 搜索 结果 。 但 是 对 现实 生活 却 有 所 帮助 : 人 们 有 时 很 懒 ， 或 者 不 知道 怎 
么 正确 使 用 变 音 符号 ， 而 且 拼 写 规则 会 随时 间 变 化 ， 因 此 实际 语言 中 的 重音 经 常 变 来 变 去 。 
除了 搜索 ， 去 掉 变 音符 号 还 能 让 URL 更 易于 陪读， 至 少 对 拉丁 语系 语言 是 如 此 。 下 面 是 
维基 百科 中 介绍 圣保罗 市 (Siio Paulo) 的 文章 的 URL: 
http://en.wikipedia.org/wiki/S%C3%A30_Paulo 
其 中 ,“%C3%A3” 是 UTF-8 编码 “和 字母 〈 带 有 波形 符 的 “a”) 转 义 后 得 到 的 结果 。 下 
述 形 式 更 友好 ， 尺 管 拼 写 是 错误 的 : 
http://en.wikipedia.org/wiki/Sao_Paulo 


如 果 想 把 字符 串 中 的 所 有 变 音 符号 都 去 掉 ， 可 以 使 用 示例 4-14 中 的 函数 。 
示例 4-14 去掉 全 部 组 合 记号 的 函数 (在 sanitize.py 模块 中 ) 


import unicodedata 
import string 












































def shave_marks(txt): 


wn "去 掉 全 部 变 音 符号 " we 
norm_txt = unicodedata.normalize('NFD', txt) © 
shaved = ''.join(c for c in norm_txt 


if not unicodedata.combining(c)) @ 
return unicodedata.normalize('NFC', shaved) © 


@ 把 所 有 字符 分 解 成 基 字 符 和 组 合 记号 。 
O 过 滤 掉 所 有 组 合 记号 。 
O 重组 所 有 字符 。 


示例 4-15 是 shave_marks 函数 的 两 个 使 用 示例 。 


示例 4-15 示例 4-14 中 shave_marks 函数 的 两 个 使 用 示例 


>>> order = '“Herr Voß: 。% cup of Etker™ caffè latte 。 bowl of acai.”' 
>>> shave_marks(order) 

'“Herr VoR: © % cup of Etker™ caffe latte 。 bowl of acai.”' @ 

>>> Greek = 'Zégupoc, Zéfiro' 


>>> shave_marks(Greek) 

'Zegupoc, Zefiro' @ 
(1) 只 替换 了 “a” sg” 和 “7” 三 个 字符 。 
(2) “g” 和 “6” 都 被 替换 了 
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示例 4-14 中 定义 的 shave_marks 函数 使 用 起 来 没 问 题 ， 但 是 也 许 做 得 太 多 了 。 通 常 ， 去 掉 
变 音符 号 ee 但 是 shave_marks 函数 还 会 修改 非 拉丁 字 
符 〈 如 希腊 字母 )， 而 只 去 掉 重 音符 并 不 能 把 它们 变 成 ASCI 字符 。 因 此 ， 我 们 应 该 分 析 
各 个 基 字 符 ， 仅 当 字 符 在 拉丁 ce fe ht MITRAL EC 如 示例 4-16 所 示 。 


示例 4-16 ”删除 拉丁 字母 中 组 合 记 号 的 函数 (import 语句 省 略 了 ， 因 为 这 是 示例 4-14 中 
定义 的 sanitize.py 模块 的 一 部 分 ) 


def shave., marks_latin(txt): 
"" 把 拉丁 基 字 符 中 所 有 的 变 音 符号 删除 """ 
norm_txt = unicodedata.normalize('NFD', txt) © 
latin_base = False 
keepers = [] 
for c in norm_txt: 
if unicodedata.combining(c) and latin_base: @ 


continue # 忽略 拉丁 基 字 符 上 的 变 音 符号 
keepers.append(c) 


# 如 果 不 是 组 合 字符 , 那 就 是 新 的 基 字 符 
if not unicodedata.combining(c): (4) 
latin base = c in string.ascii_letters 
shaved = ''.join(keepers) 
return unicodedata.normalize('NFC', shaved) @ 


@ 把 所 有 字符 分 解 成 基 字 符 和 组 合 记号 。 
O 基 字 符 为 拉丁 字母 时 ， 跳 过 组 合 记 号 。 
加 否则 ， 保 存 当 前 字符 。 

@ 检测 新 的 基 字 符 ， 判 断 是 不 是 拉丁 字母 。 
O 重组 所 有 字符 。 


更 彻底 的 规范 化 步骤 是 把 西 文 文本 中 的 常见 符号 〈 如 弯 引 号 、 长 破 折 号 、 项 目 符号 ， 等 
SE) FHM ASCII 中 的 对 等 字符 。 示 例 4-17 中 的 asciize 国 数 就 是 这 么 做 的 。 


示例 4-17 把 一 些 西 文 印 刷 字符 转换 成 ASCI 字符 (这 个 代码 片段 也 是 示例 4-14 中 
sanitize.py 模块 的 一 部 分 ) 


single_map = str.maketrans(""",f„ t<? “”.-->""", © 
WPM RACE ENN Stl) 
































© 

















multi -nap = = str.maketrans({ @ 


'€! Sie esa 

"Es OE" 5 
STH is 

‘e': 'oe', 

'%': '<per mille>', 
Op ES RRs 


}) 


multi_map.update(single_map) © 


def dewinize(txt): 





"" 把 Min1252 符 号 标 换 成 ASCII 字 符 或 序列 """ 
return txt.translate(multi_map) @ 


def asciize(txt): 
no_marks = shave_marks_lLatin(dewinize(txt)) 
no_marks = no_marks.replace('B', 'ss') 
return unicodedata.normalize('NFKC', no_marks) @ 


O 构建 字符 替换 字符 的 映射 表 。 

@ 构建 字符 替换 字符 串 的 映射 表 。 

© 合并 两 个 映射 表 。 

Q dewinize 函数 不 影响 ASCII 或 latint XÆ, AH Microsoft 在 cp1252 中 为 latini Zi 
外 添加 的 字符 。 

© 调用 dewinize 函数 ， 然 后 去 掉 变 音符 号 

© 把 德语 Eszett 替换 成 “ss” (这 里 没有 使 用 大 小 写 折 苗 ， 因为 我 们 想 保 留 大 小 写 )。 

O 使 用 NFKC 规范 化 形式 把 字符 和 与 之 兼容 的 码 位 组 合 起 来 。 


示例 4-18 是 asciize 函数 的 使 用 示例 。 
示例 4-18 示例 4-17 中 asciize 函数 的 使 用 示例 


>>> order = '“Herr Voß: 。% cup of Etker™ caffè latte 。 bowl of acai.”' 
>>> dewinize(order ) 

'"Herr Voß: - % cup of OEtker(TM) caffè latte - bowl of acai."' @ 
>>> asciize(order) 

'"Herr Voss: - 1/2 cup of OEtker(TM) caffe latte - bowl of acai."' @ 


O deninize 函数 替换 弯 引 号 、 项 目 符号 和 mv (商标 符号 ) 。 
© asctize 函数 调用 dewinize 国 数 ， 去 掉 变 音符 号 ， 还 会 赫 换 R. 


不 同 语言 删除 变 音符 号 的 规则 也 有 所 不 同 。 例 如 ， 德 语 把 i 变 成 'ue'。 我 
们 定义 的 asciize 国 数 没 这 么 精确 ， 因 此 可 能 适合 你 的 语言 ， 也 可 能 不 适合 。 
不 过 ， 它 对 葡萄 牙 语 的 处 理 是 可 接受 的 。 


00 












































综 上 ，sanitize.py 中 的 函数 做 的 事情 超出 了 标准 的 规范 化 ， 而 且 会 对 文本 做 进一步 处 理 ， 
很 有 可 和 E 会 改变 原意 。 只 有 知道 目标 语言 、 目 标 用 户 群 和 转换 后 的 用 途 ， 才 能 确定 要 不 要 
做 这 么 深入 的 规范 化 。 


我 们 对 Unicode 文本 规范 化 的 讨论 到 此 结束 。 
接 下 来 要 解决 的 Unicode 问题 是 …… 排 序 。 


4.7 ” Unicode 文 本 排序 


Python 比较 任何 类 型 的 序列 时 ， 会 一 一 比较 序列 里 的 各 个 元 素 。 对 字符 串 来 说 ， 比 较 的 是 
码 位 。 可 是 在 比较 非 ASCI 字符 时 ， 得 到 的 结果 不 尽 如 人 意 。 
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看 对 一 个 生长 在 巴西 的 水 果 的 列表 进行 排序 : 

>>> fruits = ['caju', ‘atemoia', 'caja', 'acat', 'acerola'] 

>>> sorted(fruits) 

['acerola', 'atemoia', 'acai', 'caju', 'caja'] 
不 同 的 区 域 采 用 的 排序 规则 有 所 不 同 ， 和 葡萄 牙 语 等 很 多 语言 按照 拉丁 字母 表 排 序 ， 重 音符 
号 和 下 加 符 对 排序 几乎 没什么 影响 。” 因此， 排序 时 “caj 纪 视 作 “caja”， 必 定 排 在 “caju” 
前 面 。 
排序 后 的 fruits 列表 应 该 是 : 


['agat', 'acerola', 'atemoia', 'caja', 'caju'] 


在 Python 中 ， 非 ASCII 文本 的 标准 排序 方式 是 使 用 Locale.strxfrm 函数 ， 根 据 Locale 模 
块 的 文档 (https://docs.python.org/3/library/locale.html?highlight=strxfrm 检 ocale.strxfrm)， 这 
个 函数 会 “把 字符 串 转 换 成 适合 所 在 区 域 进行 比较 的 形式 ”。 

使 用 locale.strxfrm 函数 之 前 ， 必 须 先 为 应 用 设 定 合 适 的 区 域 设 置 ， 还 要 祈祷 操作 系统 支 
持 这 项 设置 。 在 区 域 设 为 pt_BR 的 GNU/Linux (Ubuntu 14.04) 中 ， 可 以 使 用 示例 4-19 中 
的 命令 。 


示例 4-19 使 用 locale.strxfrm 函数 做 排序 键 


>>> import locale 

>>> locale.setlocale(locale.LC_COLLATE, 'pt_BR.UTF-8') 
'pt_BR.UTF-8' 

>>> fruits = ['caju', 'atemoia', 'caja', 'acai', 'acerola'] 
>>> sorted_fruits = sorted(fruits, key=Locale.strxfrm) 

>>> sorted_fruits 

['agat', ‘acerola', ‘atemoia', 'caja', 'caju'] 


因此 ， 使 用 locale.strxfrm 国 数 做 排序 键 之 前 ， 要 调用 setlocale(LC_COLLATE, «your_locale») 。 
不 过 ， 有 几 点 要 注意 。 


。 区 域 设置 是 全 局 的 ， 因 此 不 推荐 在 库 中 调用 setlocale 函数 。 应 用 或 框架 应 该 在 进程 启 
动 时 设 定 区 域 设 置 ， 而 且 此 后 不 要 再 修改 。 

。 操作 系统 必须 支持 区 域 设 置 ， 否 则 setlocale 国 数 会 抛 出 locale.Error: unsupported 
locale setting 异常 。 

。 必须 知道 如 何 拼 写 区 域名 称 。 它 在 Unix 衍生 系统 中 几乎 已 经 形成 标准 ， 要 通 
过 'language_code.encoding' 获取 。" 但 是 在 Windows F, 句法 复杂 一 些 : Language Name- 
Language Variant_Region Name.codepage。 注 意 ,“Language Name”( 语 言 名 称 )、“Language 
Variant”( 语 言 变 体 ) 和 “Region Name”( 区 域名 ) 中 可 以 包含 空格 ， 除 了 第 一 部 分 之 外 ， 
其 他 部 分 的 前 面 是 不 同 的 字符 : 一 个 连 字 符 、 一 个 下 划 线 和 一 个 点 号 。 除 了 语言 名 称 之 外 ， 


a 























































































































TE 9: 变 音符 号 对 排序 有 影响 的 情况 很 少 发生 ， 只 有 两 个 词 之 间 唯 有 变 音符 号 不 同时 才 有 影响 。 此 时 ， 带 有 

变 音符 号 的 词 排 在 常规 词 的 后 面 。 
注 10: 在 Linux 操作 系统 中 ， 中 国 大 陆 的 读者 可 以 使 用 zh_CN.UTF-8， 简 体 中 文 会 按照 汉语 拼音 顺序 进行 
排序 ， 它 也 能 对 葡萄 牙 语 进行 正确 排序 。 一 一 编者 注 


















































其 他 部 分 好 像 都 是 可 选 的 。 例 如 ，EngLish_United States.850， 它 的 语言 名 称 是 “English”， 
区 域 是 “United States"， 代 码 页 是 “850" 。Windows 能 理解 的 语言 名 称 和 区 域名 见于 MSDN 
中 的 文章 “Language Identifier Constants and Strings” (https://msdn.microsoft.com/en-us/library/ 
dd318693.aspx), 8% “Code Page Identifiers” (https://msdn.microsoft.com/en-us/library/windows/ 
desktop/dd317756(v=vs.85). aspx) 一 文 列 出 了 最 后 一 部 分 的 代码 页 数字 。" 

。 操作 系统 的 制作 者 必须 正确 实现 了 所 设 的 区 域 。 我 在 Ubuntu 14.04 中 成 功 了 ， 但 在 OS 
X (Mavericks 10.9) 中 却 失 败 了 。 在 两 台 Mac 中 ， 调 用 setlocale(LC_COLLATE, 'pt_ 
BR.UTF-8') 返回 的 都 是 字符 串 'pt_BR.UTF-8'， 没 有 任何 问题 。 但 是 ，sorted(fruits， 
key=locale.strxfrm) 得 到 的 结果 与 sorted(fruits) 一样 ， 是 错误 的 。 我 还 在 OS X 中 
尝试 了 fr_FR、es_ES 和 de_DE， 但 是 locale.strxfrm 并 未 起 作用 。 | 


此 ， 标 准 库 提 供 的 国际 化 排序 方案 可 用 ， 但 是 似乎 只 支持 GNU/Linux (可 能 也 支持 
Windows， 但 你 得 是 专家 )。 即 便 如 此 ， 还 要 依赖 区 域 设 置 ， 而 这 会 为 部 署 带 来 问题 


幸好 ， 有 个 较为 简单 的 方案 PyPI 中 的 PyUCA E, 


使 用 Unicode 排 序 算 法 排序 


James Tauber， 一 位 高 产 的 Django 贡献 者 ， 他 一 定 是 感受 到 了 这 一 痛 点 ， 因 此 开发 了 
PyUCA 库 (https://pypi.python.org/pypi/pyuca/)， 这 是 Unicode 排序 算法 (Unicode Collation 
Algorithm，UCA) 的 纯 Python 实现 。 示 例 4-20 展示 了 它 的 简单 用 法 。 


















































示例 4-20 使 用 pyuca.Collator.sort_key 方法 


>>> import pyuca 

>>> coll = pyuca.Collator() 

>>> fruits = ['caju', 'atemoia', 'caja', 'açaí', ‘acerola'] 

>>> sorted_fruits = sorted(fruits, key=coll.sort_key) 

>>> sorted_fruits 

['agai', 'acerola', 'atemoia', 'caja', 'caju'] 
这 样 做 更 友好 ， 而 且 恰 好 可 用 。 我 在 GNU/Linux, OS X 和 Windows 中 做 过 测试 。 目 前 ， 
PyUCA 只 支持 Python 3.x, ° 


PyUCA 没有 考虑 区 域 设置 。 如 果 想 定制 排序 方式 ， 可 以 把 自 定义 的 排序 表 路 径 传 给 
Collator() 构造 方法 。PyUCA 默认 使 用 项 目 自 带 的 allkeys.txt (https://github.com/ 
jtauber/pyuca), ， 这 就 是 Unicode 6.3.0 的 “Default Unicode Collation Element Table” (http:// 
www.unicode.org/Public/UCA/6.3.0/allkeys.txt) 的 副本 。 


顺便 说 一 下 ， 那 个 表 是 Unicode 数据 库 中 众多 表 中 的 一 个 。 下 一 节 会 讨论 这 个 话题 。 























注 11: 感谢 Leonardo Rochael， 他 所 做 的 了 
却 研究 了 这 些 Windows 细节 。 

注 12: 同样 ， 我 没 找到 解决 方案 ， 不 过 却 发 现 其 他 人 也 报告 了 同样 的 问题 。 本 书 技术 审 校 之 一 Alex 
Martelli, 在 他 装 有 OSX 10.9 的 Mac 电脑 中 使 用 setlocale 和 locale.strxfrm 上 时 没有 遇 到 问题 。 综 上 : 
结果 因 人 而 异 。 
注 13: 2015 年 5 月 ,PyUCA 重新 支持 Python 2.x, 参 见 :http://jktauber.com/2015/05/13/pyuca-supports-python-2- 





作 超出 了 身 为 技术 审 校 的 职责 ， 虽 然 他 是 GNU/Linux 用 户 ,但 
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again, 
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4.8 Unicode 数据 库 
Unicode 标准 提供 了 一 个 完整 的 数据 库 (许多 格式 化 的 文本 文件 )， 不 仅 包括 码 位 与 字符 





名 称 之 间 的 映射 ， 还 有 各 个 字符 的 元 数据 ， 以 及 字符 之 间 的 关系 。 例 如 ，Unicode 数据 库 











记录 了 字符 是 否 可 以 打印 、 是 不 是 字母 、 是 不 是 数字 ， 或 者 是 不 是 其 他 数值 符号 。 字 符 串 
的 isidentifier、isprintable、isdecimal 和 isnumeric 等 方法 就 是 靠 这 些 信 息 作 判断 的 。 
str.casefold 方法 也 用 到 了 Unicode 表 中 的 信息 。 

unicodedata 模块 中 有 几 个 国 数 用 于 获取 字符 的 元 数据 。 例 如 ， 字 符 在 标准 中 的 官方 名 称 
是 不 是 组 合 字符 (如 结合 波形 符 构成 的 变 音 符号 等 )， 以 及 符号 对 应 的 人 类 可 读数 值 (不 
是 码 位 )。 示 例 4-21 展示 了 unicodedata.name() 和 unicodedata.numeric() 图 数 ， 以 及 字符 
BHJ .isdecimal() 和 .isnumeric() 方法 的 用 法 。 


示例 4-21 Unicode 数据库 中 数值 字符 的 元 数据 示例 (各 个 标号 说 明 输 出 中 的 各 列 ) 





import unicodedata 
import re 


re_digit = re.compile(r 








‘\d') 


sample = '1\xbc\xb2\u0969\u136b\u216b\u2466\u2480\u3285' 


for char in sample: 


print('U+%04x' % ord(char), 
char.center(6), 
're_dig' if re_digit.match(char) else '-', 
‘isdig' if char.isdigit() else '-', 
‘isnum' if char.isnumeric() else '-', 
format(unicodedata.numeric(char), '5.2f'), 
unicodedata.name(char), 


sep='\t') 


@ U+0000 格式 的 码 位 。 


0000000 





O 在 长 度 为 6 的 字符 串 中 居中 显示 字符 。 





© 如 果 字 符 匹 配 正则 表达 式 
© 如 果 char.isdigit() 返回 
© 如 果 char.isnumeric() 返 


r'\d'， 显 示 re_dig, 


True， 显 示 isdig, 





la] True， 显 示 isnum, 


O 使 用 长 度 为 5S、 小 数 点 后 保留 2 位 的 浮 点 数 显示 数值 。 
@ Unicode 标准 中 字符 的 名 称 。 


运行 示例 4-21 得 到 的 结果 如 





图 4-3 所 示 。 


4-3 中 的 第 6 列 是 在 字符 上 调用 unicodedata.numeric(char) 函数 得 到 的 结果 。 这 表明 ， 








Unicode 知道 表示 数字 的 符号 的 数值 。 因 此 ， 如 果 你 想 创建 一 个 支持 泰 米尔 数字 和 罗马 数 
字 的 电子 表格 应 用 ， 那 就 尽管 去 做 吧 ! 




















enn S.bash 


$ python3 numerics_demo.py 

U+0031 1 re_dig isdig isnum 1.00 DIGIT ONE 

U+0@bc KA = 和 isnum 0.25 VULGAR FRACTION ONE QUARTER 
|U+00b2 2 - isdig isnum 2.0@ SUPERSCRIPT TWO 

|1U+0969 3 re_dig isdig isnum 3.00 DEVANAGARI DIGIT THREE 
iU+136b E 有 isdig isnum 3.00 ETHIOPIC DIGIT THREE 

U+216b XII = = isnum 12.00 ROMAN NUMERAL TWELVE 
1U+2466 © = isdig isnum 7.00 CIRCLED DIGIT SEVEN 

iU+2480 的 - = isnum 13.00 PARENTHESTZED NUMBER THIRTEEN 
si. ® = = isnum 6.00 CIRCLED IDEOGRAPH SIX 

$ 

















B 4-3: 9 个 数值 字符 及 其 元 数据 ，re_dig 表示 字符 匹配 正则 表达 式 r'\d' 





图 4-3 表明， 正则 表达 式 r'\d' 能 匹配 数字 “1” 和 焚 文 数字 3， 但 是 不 能 匹配 isdigit 
方法 判断 为 数字 的 其 他 字符 。re 模块 对 Unicode 的 支持 并 不 充分 。PyPI 中 有 个 新 开发 的 
regex 模块 ， 它 的 最 终 目的 是 取代 re 模块 ， 以 提供 更 好 的 Unicode 支持 。 “下 一 节 会 回 过 
头 来 讨论 re 模块 。 

本 章 使 用 了 unicodedata 模块 中 的 几 个 国 数 ， 但 是 还 有 很 多 没有 用 到 。 详 情 参阅 标准 库 文 
档 对 unicodedata 模块 的 说 明 (https://docs.python.org/3/library/unicodedata.htm!) 。 

在 结束 对 字符 串 和 字 节 序列 的 讨论 之 前 ， 我 们 还 要 简要 说 明 一 个 新 的 趋势 一 一 双 模 式 API, 
即 提 供 的 函数 能 接受 字符 串 或 字 节 序列 为 参数 ， 然 后 根据 类 型 进行 特殊 处 理 


4.9 ”支持 字符 串 和 字 节 序列 的 双 模 式 AP|I 


标准 库 中 的 一 些 函 数 能 接受 字符 串 或 字 节 序列 为 参数 ， 然 后 根据 类 型 展现 不 同 的 行为 。re 
和 os 模块 中 就 有 这 样 的 函数 。 


4.9.1 正则 表达 式 中 的 字符 串 和 字 节 序列 


如 果 使 用 字 节 序列 构建 正则 表达 式 ，\d 和 \w 等 模式 只 能 匹配 ASCI 字符 ， 相 比 之 下 ， 如 
果 是 字符 串 模 式 ， 就 能 匹配 ASCII 之 外 的 Unicode 数字 或 字母 。 示 例 4-22 和 图 4-4 展示 了 
字符 串 模 式 和 字 节 序列 模式 中 字母 、ASCII 数字 、 上 标 和 泰 米尔 数字 的 匹配 情况 。 


示例 4-22 ramanujan.py: 比较 简单 的 字符 串 正 则 表达 式 和 字 节 序列 正则 表达 式 的 行为 


import re 

































































T 


o 























re_numbers_str = re.compile(r'\d+') (1) 
re_words str = re.compile(r'\wt') 
re_numbers_bytes = re.compile(rb'\d+') @ 
re_words bytes = re.compile(rb'\w+') 








TE 14: 不 过 在 这 个 示例 中 ， 它 在 识别 数字 方面 的 表现 没有 re 模块 好 。 
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text_str = ("Ramanujan saw \u0be7\u@0bed\u0be8\u0bef" © 
" as 1729 = 13 + 123 = 93 + 103.") O 


text_bytes = text_str.encode('utf_8') @ 


print('Text', repr(text_str), sep='\n ') 

print('Numbers') 

print(' str :', re_numbers_str.findall(text_str)) O 
print(' bytes:', re_numbers_bytes.findall(text_bytes)) @ 
print('Words') 

print(' str :', re_words_str.findall(text_str)) O 
print(' bytes:', re_words_bytes.findall(text_bytes)) © 


O 前 两 个 正则 表达 式 是 字符 串 类 型 。 

O 后 两 个 正则 表达 式 是 字 节 序列 类 型 。 

© 要 搜索 的 Unicode 文本 ， 包 括 1729 的 泰 米 尔 数字 (逻辑 行 直 到 右 括号 才 结 束 )。 

O 这 个 字符 串 在 编译 时 与 前 一 个 拼接 起 来 (参见 Python 语言 参考 手册 中 的 “2.4.2. String 


literal concatenation”, https://docs.python.org/3/reference/lexical_analysis.html#string- 





literal- Ene 3 
O 字 市 序列 只 能 用 字 布 序列 正则 表达 式 搜索 。 
O 字符 串 模式 上 能 匹配 泰 米尔 数字 和 ASCII 数字 。 
O 字 市 序列 模式 rb'\d+' 只 能 匹配 ASCH 字 节 中 的 数字 。 
O 字符 串 模式 r'\w+' 能 匹配 字母 、 上 标 、 泰 米尔 数字 和 ASCII 数字 。 
O 字 节 序列 模式 rb'\w+' 只 能 匹配 ASCH 字 节 中 的 字母 和 数字 。 














80.0 1. bash 
$ python3 ramanujan.py 
Text 
"Ramanujan saw saz as 1729 = 13 + 123 = 93 + 103." 
Numbers 


str : ['saow', '1729', '1', '12', '9', '10'] 
bytes: [b'1729", b'1', b'12", b'9", b'10'] 


Words 
str : ['Ramanujan', 'saw', ‘saee', 'as', '1729', '13", '123', '93', '103"] 
bytes: [b'Ramanujan', b'saw', b'as', b'1729', b'1', b'12', b'9', b'10"] 


$I 














4-4; 运行 示例 4-22 中 的 ramanujan.py 脚本 时 的 截图 
示例 4-22 是 随便 举 的 例子 ， 为 的 是 说 明 一 个 问题 : 可 以 使 用 正则 表达 式 搜索 字符 串 和 字 节 
序列 ， 但 是 在 后 一 种 情况 中 ，ASCII 范围 外 的 字 节 不 会 当成 数字 和 组 成 单词 的 字母 。 


字符 串 正 则 表达 式 有 个 re.ASCII 标志 ， 它 让 w, WwW, \b, \B, \d, \D, \s 和 \S 只 匹配 
ASCII 字符 。 详 情 参 阅 re 模块 的 文档 (https://docs.python.org/3/library/re.html ) 。 


另 一 个 重要 的 双 模 式 模块 是 os。 

















4.9.2 os 函数 中 的 字符 串 和 字 节 序列 


GNU/Linux 内 核 不 理解 Unicode， 因 此 你 可 能 发 现 了 ， 对 任何 合理 的 编码 方案 来 说 ， 在 文 
件 名 中 使 用 字 节 序列 都 是 无 效 的 ， 无 法 解码 成 字符 串 。 在 不 同 操作 系统 中 使 用 各 种 客户 端 
的 文件 服务 器 ， 在 遇 到 这 个 问题 时 尤其 容易 出 错 。 


为 了 规避 这 个 问题 ，os 模块 中 的 所 有 国 数 、 文 件 名 或 路 径 名 参数 既 能 使 用 字符 
串 ， 也 能 使 用 字 节 序列 。 如 果 这 样 的 函数 使 用 字符 串 参 数 调用 ， 该 参数 会 使 用 sys. 
getfilesystemencoding() 得 到 的 编 解 码 器 自动 编码 ， 然 后 操作 系统 会 使 用 相同 的 编 解码 器 
解码 。 这 几乎 就 是 我 们 想 要 的 行为 ， 与 Unicode 三 明治 最 佳 实践 一 致 。 


ir 如 果 必 须 处 理 〈 也 可 能 是 修正 ) de 动 处 理 的 文件 名 ， 可 以 把 
序列 参数 传 给 os 模块 中 的 函数 ， 得 到 字 市 序列 返回 值 。 这 一 特性 允许 我 们 处 理 任 何 
文件 名 或 路 至 名 ， 不 管 里 面 有 多 少 鬼 符 ， 如 示例 4-23 所 示 。 


示例 4-23 ”把 字符 串 和 字 节 序列 参数 传 给 Listdir 函数 得 到 的 结果 
>>> os.listdir('.') # 0 
['abc.txt', 'digits-of-n.txt'] 
>>> os.Llistdir(b'.') #@ 
[b'abc.txt', b'digits-of-\xcf\x80.txt'] 
O 第 二 个 文件 名 是 “digits-of-n.txt”( 有 一 个 希腊 字母 x)。 
O 参数 是 字 节 序列 ，Listdir 国 数 返 回 的 文件 名 也 是 字 节 序列 : b'\xcf\x80' 是 希腊 字母 x 
的 UTF-8 编码 。 


为 了 便于 手动 处 理 字符 串 或 字 节 序列 形式 的 文件 名 或 路 径 名 ，os 模块 提供 了 特殊 的 编码 和 
解码 函数 。 
fsencode(filename) 


如 果 Filename 是 str 类 型 (此 外 还 可 能 是 bytes 类 型 ), 使 用 sys.getfilesystemencoding() 
返回 的 编 解码 器 把 Filename 编码 成 字 节 序列 ， 否则， 返回 未 经 修改 的 filename 字 节 
序列 。 


fsdecode(filename) 


如 果 filename 是 bytes 类 型 (此 外 还 可 能 是 str 类 型 )， 使 用 sys.getfilesystemen- 
coding() 返回 的 编 解 码 器 把 filename 解码 成 字符 串 ; 否则 ， 返 回 未 经 修改 的 filename 


中 


字符 串 。 


在 Unix 衍生 平台 中 ， 这 些 国 数 使 用 surrogateescape 错误 处 理 方式 (参见 下 述 附 注 栏 ) 以 
避免 遇 到 意外 字 节 序列 时 卡 住 。Windows 使 用 的 错误 处 理 方式 是 strict, 
































































































































使 用 surrogateescape 处 理 鬼 符 


Python 3.1 引入 的 surrogateescape 编 解 码 器 错误 处 理 方式 是 处 理 意外 字 节 序列 或 未 知 
编码 的 一 种 方式 ， 它 的 说 明和 参见 “PEP 383 一 Non-decodable Bytes in System Character 
Interfaces” (https://www.python.org/dev/peps/pep-0383/) . 
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这 种 错误 处 理 方式 会 把 每 个 无 法 解码 的 字 节 替换 成 Unicode 中 U+DC00 到 U+DCFF 之 
间 的 码 位 (Unicode 标准 把 这 些 码 位 称 为 “Low Surrogate Area ) ， 这 些 三 位 是 保留 的 ， 
没有 分 配 字符 ， 供 应 用 程序 内 部 使 用 。 编 码 时 ， 这 些 三 位 会 转换 成 被 替换 的 字 节 值 ， 
如 示例 4-24 所 示 。 


示例 4-24 使 用 surrogateescape 错误 处 理 方 式 
>>> os.listdir('.') © 
['abc.txt', 'digits-of-n.txt'] 
>>> os.listdir(b'.') @ 
[b'abc.txt', b'digits-of-\xcf\x80.txt'] 
>>> pi_name_bytes = os.listdir(b'.')[1] © 
>>> pi_name_str = pi_name_bytes.decode('ascii', 'surrogateescape') @ 
>>> pi_name_str © 
'digits-of-\udccf\udc80.txt' 
>>> pi_name_str.encode('ascii', 'surrogateescape') @ 
b'digits-of-\xcf\x80.txt' 


@ 列 出 目录 里 的 文件 ， 有 个 文件 名 中 包含 非 ASCII 字符 。 

O 假设 我 们 不 知道 编码 ， 获 取 文 件 名 的 字 节 序列 形式 。 

© pi_names_bytes 是 包含 元 的 文件 名 。 

O 使 用 'ascii' 编 解码 器 和 'surrogateescape' 错误 处 理 方式 把 它 解码 成 字符 串 。 
© 各 个 非 ASCII 字 节 替换 成 代替 码 位 : '\xcf\x89' 变 成 了 '\udccf\udc86 , 

© 编码 成 ASCII 字 节 序列 : 各 个 代替 码 位 还 原 成 被 替换 的 字 节 。 











我 们 对 字符 串 和 字 节 序列 的 探讨 到 此 结束 。 如 果 你 坚持 读 到 这 里 


410 ”本章 小 结 


本 章 首先 浴 清 了 人 们 对 一 个 字符 等 于 一 个 字 节 的 误解 。 随 着 Unicode 的 广泛 使 用 (80% 的 
网 站 已 经 使 用 UTF-8)， 我 们 必须 把 文本 字符 串 与 它们 在 文件 中 的 二 进 制 序列 表述 区 分 开 ， 
而 Python 3 中 这 个 区 分 是 强制 的 。 


对 bytes、bytearray 和 memoryview 等 二 进 制 序列 数据 类 型 做 了 简要 概述 之 后 ， 我 们 转 到 了 
编码 和 解码 话题 ， 通 过 示例 展示 了 重要 的 编 解码 器 ;随后 讨论 了 如 何 避 免 和 处 理 和 具名 昭著 
的 UnicodeEncodeError 和 UnicodeDecodeError， 以 及 由 于 Python 源码 文件 编码 错误 导致 的 


SyntaxError, 


讨论 源码 的 编码 问题 时 ， 我 表明 了 自己 对 非 ASCII 标识 符 的 观点 : 如 果 代 码 基 的 维护 者 
想 使 用 包含 非 ASCI 字符 的 人 类 语言 命名 标识 符 ， 那 就 去 做 ， 除 非 还 想 在 Python 2 中 运 
行 代码 。 但 是 ， 如 果 项 目 想 吸引 世界 各 国 的 贡献 者 ， 那 么 标识 符 应 该 使 用 英语 单词 ， 此 时 
ASCII 就 够 用 了 。 

然后 ， 我 们 说 明了 在 没有 元 数据 的 情况 下 检测 编码 的 理论 和 实际 情况 : 理论 上 ， 做 不 到 
这 一 点 ; 但 是 实际 上 ，Chardet 包 能 够 正确 处 理 一 些 流 行 的 编码 。 随 后 介绍 了 字 节 序 标记 ， 
这 是 UTF-16 和 UTF-32 文件 中 常见 的 编码 提示 ， 某 些 UTF-8 文件 中 也 有 。 
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随后 的 一 节 演 示 了 如 何 打开 文本 文件 ， 这 是 一 项 简单 的 任务 ， 不 过 有 个 陷阱 : 打开 文本 
文件 时 ，encoding= 关键 字 参 数 不 是 必需 的 ， 但 是 应 该 指定 。 如 果 没 有 指定 编码 ， 那 么 
程序 会 想方设法 生成 “ 纯 文 本 ”， 如 此 一 来 ， 不 一 致 的 默认 编码 就 会 导致 跨 平 台 不 兼容 
性 。 然 后 ， 我 们 说 明了 Python 用 作 上 默认 值 的 儿 个 编码 设置 ， 以 及 如 何 检 测 它们 : locale. 
getpreferredencoding(), sys.getfilesystemencoding(), sys.getdefaultencoding(), 以 
及 标准 IO 文件 (如 sys.stdout.encoding) 的 编码 。 对 Windows 用 户 来 说 ， 现 实 不 容 乐 
观 : 这 些 设 置 在 同一 台 设 备 中 往往 有 不 同 的 值 ， 而 且 各 个 设置 相互 不 兼容 。 而 对 GNU/ 
Linux 和 OS X 用 户 来 说 ， 情 况 就 好 多 了 ， 几 乎 所 有 地 方 使 用 的 默认 值 都 是 UTF-8。 


文本 比较 是 个 异常 复杂 的 任务 ， 因 为 Unicode 为 某 些 字符 提供 了 不 同 的 表示 ， 所 以 匹配 文 
本 之 前 一 定 要 先 规 范 化 。 说 明 规 范 化 和 大 小 写 折 倒 之 后 ， 我 们 提供 了 几 个 实用 函数 ， 你 可 
以 根据 自己 的 需求 改编 。 其 中 有 个 国 数 所 做 的 是 极端 转换 ， 比 如 去 掉 所 有 重音 符号 。 随 
后 ， 我 们 说 明了 如 何 使 用 标准 库 中 的 Locale 模块 正确 地 排序 Unicode 文本 (有 一 些 注 意 事 
项 ) ， 此 外 ， 还 可 以 使 用 外 部 的 PyUCA 包 ， 从 而 无 需 依赖 捉摸 不 定 的 区 域 配置 。 

最 后 简要 介绍 了 Unicode 数据 库 (包含 每 个 字符 的 元 数据 )， 还 简单 讨论 了 双 模 式 API 〈 例 
如 re 和 os 模块 ， 这 两 个 模块 中 的 某 些 函数 可 以 接受 字符 串 或 字 市 序列 参数 ， 返 回 不 同 但 
合适 的 结果 )。 


4.11 ”延伸 阅读 


Ned Batchelder 在 2012 年 的 PyCon US 所 做 的 演讲 “Pragmatic Unicode 一 or 一 How Do I Stop 
the Pain?” (http://nedbatchelder.com/text/unipain.html) 非常 出 色 。Ned 很 专业 ， 除 了 幻灯 片 
和 视频 之 外 ， 他 还 提供 了 完整 的 文字 记录 。Esther Nam 和 Travis Fischer 在 PyCon 2014 做 了 
一 场 精彩 的 演讲 : “Character encoding and Unicode in Python: How to (7° ey 7 tL 
with dignity” [ 幻灯 片 (http://www.slideshare.net/fischertrav/character-encoding-unicode-how-to- 































































































with-dignity-33352863 ) ,视频 (http://pyvideo.org/pycon-us-2014/character-encoding-and-unicode- 
in-python.html) ]。 本 章 开 头 那 名 简短 有 力 的 话 就 是 出 自 这 次 演讲 :“ 人 类 使 用 文本 ， 计 算 
机 使 用 字 节 序列 。” 本 书 的 技术 审 校 之 一 Lennart Regebro 在 “Unconfusing Unicode: What Is 
Unicode?” (https://regebro.wordpress.com/2011/03/23/unconfusing-unicode-what-is-unicode/) 这 
篇 短文 中 提出 了 “Useful Mental Model of Unicode (UMMU)”, Unicode 是 个 复杂 的 标准 ， 
Lennart 提出 的 UMMU 是 个 很 好 的 切入 点 。 


Python 文档 中 的 “Unicode HOWTO” 一 文 (https://docs.python.org/3/howto/unicode.html) 从 
几 个 不 同 的 角度 对 本 章 所 涉及 的 话题 做 了 讨论 ， 从 编码 历史 到 句法 细节 、 编 解码 器 、 正 则 
表达 式 、 文 件 名 和 Unicode 的 VO 最 佳 实践 ( 即 Unicode 三 明治 )， 而 且 各 市 都 给 出 了 大 
量 参 考 资料 链接 。Dive into Python 3 是 一 本 非常 优秀 的 书 (Mark Pilgrim 4, http://www. 
diveintopython3.net)， 其 中 第 4 章 “Strings”(http://www.diveintopython3.net/strings.html) 对 
Python 3 对 Unicode 的 支持 做 了 很 好 的 介绍 。 此 外 ， 该 书 的 第 15 章 (http://getpython3.com/ 
diveintopython3/case-study-porting-chardet-to-python-3.html) 阐述 了 Chardet JÆ JA Python 2 移 
植 到 Python 3 的 过 程 ， 这 是 一 个 宝贵 的 案例 分 析 ， 从 中 可 以 看 出 ， 从 旧 的 str 类 型 转 到 新 
的 bytes 类 型 是 造成 迁移 如 此 痛苦 的 主要 原因 ， 也 是 检测 编码 的 库 应 该 关注 的 重点 。 
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如 果 你 用 过 Python 2， 但 是 刚 接 触 Python 3， 可 以 阅读 Guido van Rossum 5 AY “What’s 
New in Python 3.0” (https://docs.python.org/3.0/whatsnew/3.0.html#text-vs-data-instead-of- 
unicode-vs-8-bit) ， 这 篇 文章 简要 列 出 了 新 版 的 15 点 变化 ， 而 且 附 有 很 多 链接 。Guido 开门 
见 山地 说 道 :“ 你 自 以 为 知道 的 二 进 制 数 据 和 Unicode 知识 全 都 变 了 。”Armin Ronacher 的 
博客 文章 “The Updated Guide to Unicode on Python” (http://lucumr.pocoo.org/2013/7/2/the- 
updated-guide-to-unicode/) 深入 分 析 了 Python 3 中 Unicode 的 一 些 陷阱 (Armin AV RABE 
于 Python 3)。 








《Python Cookbook (3 3 版) 中文 版 》(David Beazley 和 Brian K. Jones #) 的 第 2 章 “ 字 
符 串 和 文本 ”中 有 几 个 诀窍 谈 到 了 Unicode 规范 化 、 清 洗 文 本 ， 以 及 在 字 节 序列 上 执行 面 
向 文本 的 操作 。 第 5 章 涵盖 文件 和 JIO,“5$.17 将 字 节 数据 写 入 文本 文件 ”指出 ， 任 何 文本 
文件 的 底层 都 有 一 个 二 进 制 流 ， 如 果 需 要 可 以 直接 访问 。 之 后 的 “6.11 读 写 二 进 制 结构 的 
数组 ”用 到 了 struct 模块 。 


Nick Coghlan 的 “Python Notes” 博 客 中 有 两 篇 文章 与 本 章 的 话题 十 分 相关 : “Python 3 
and ASCII Compatible Binary Protocols” (http://python-notes.curiousefficiency.org/en/latest/ 





























python3/binary_protocols.html) #11 “Processing Text Files in Python 3” (http://python-notes. 
curiousefficiency.org/en/latest/python3/text_file_processing.html )。 强 烈 推荐 阅读 。 

Python 3.5 将 为 二 进 制 序列 引入 新 的 构造 方法 和 方法 ， 而 且 会 废弃 目前 使 用 的 构造 方法 签 
名 (参见 “PEP 467 一 Minor API improvements for binary sequences”, https://www.python.org/ 
dev/peps/pep-0467/) 。 此 外 ，Python 3.5 还 会 实现 “PEP 461—Adding % formatting to bytes and 
bytearray” (https://www.python.org/dev/peps/pep-0461/) 。 





Python 支持 的 编码 列表 参见 codecs 模块 文档 的 “Standard Encodings” 一 节 (https://docs.python. 
org/3/library/codecs.html#standard-encodings)。 如 果 需 要 通过 编程 的 方式 获得 那个 列表 ， 看 看 
CPython 源码 中 /Tools/unicode/listcodecs.py 脚本 (https://hg.python.org/cpython/file/6dcc96fa3970/ 
Tools/unicode/listcodecs.py) 是 怎么 做 的 。 








Martijn Faassen 的 文章 “Changing the Python Default Encoding Considered Harmful” (http://blog. 
startifact.com/posts/older/changing-the-python-default-encoding-considered-harmful.html) 和 Tarek Ziadé 
的 文章 “sys.setdefaultencoding Is Evil” (http://blog.ziade.org/2008/01/08/syssetdefaultencoding-is- 
evil/) 解释 了 为 什么 一 定 不 能 修改 sys.getdefauttencoding() 获取 的 编码 ， 即 便 知 道 怎么 做 也 
不 能 改 。 

Unicode Explained (Jukka K. Korpela 3, O'Reilly 出 版 社 ，http://shop.oreilly.conyproduct/9780596101213. 
do) 和 Unicode Demystified (Richard Gillam 3%, Addison-Wesley 出 版 社 ，http://www.informit.com/ 
store/unicode-demystified-a-practical-programmers-guide-to-9780201700527) 这 两 本 书 不 是 针 
对 Python 的 ， 但 在 我 学 习 Unicode 相关 概念 时 给 了 我 很 大 的 帮助 。Victor Stinner 的 著作 
Programming with Unicode (http://unicodebook.readthedocs.org/index.html) 是 一 本 免费 的 自 
出 版 图 书 (遵守 CC BY-SA 协议 )， 其 中 讨论 了 一 般 的 Unicode 话题 ， 以 及 主流 操作 系统 
和 几 门 编程 语言 (包括 Python) 中 的 相关 工具 和 API, 


W3C 网 站 中 AY “Case Folding: An Introduction” (https://www.w3.org/International/wiki/Case_ 
folding) #1 “Character Model for the World Wide Web: String Matching and Searching” (https:// 

















www.w3.org/TR/charmod-norm/) 讨论 了 规范 化 相关 的 概念 ， 前 者 是 介绍 性 文章 ， 后 者 则 是 
以 枯燥 的 标准 用 语 写 就 的 工作 草案 一 一 “Unicode Standard Annex #15— Unicode Normalization 
Forms” (http://unicode.org/reports/tr15/) 也 是 这 种 风格 。Unicode.org 网 站 中 的 “Frequently 
Asked Questions / Normalization” (http://www.unicode.org/faq/normalization.html) 更 容易 理解 ， 
Mark Davis 写 的 “NFC FAQ” (http:/Avww.macchiato.com/unicode/nfc-faq) 也 是 如 此 。Mark 是 
多 个 Unicode 算法 的 作者 ， 在 我 写作 本 书 时 ， 他 还 担任 Unicode 联盟 的 主席 。 





“ 纯 文本 ”是 什么 


对 于 经 常 处 理 非 英 语文 本 的 人 来 说 ,“ 纯 文本 ”并 不 是 指 “ASCII”。Unicode 词汇 表 
(http://www.unicode.org/glossary/#plain_text) 是 这 样 定义 纯 文 本 的 : 


只 由 特定 标准 的 码 位 序列 组 成 的 计算 机 编码 文本 ， 其 中 不 含 其 他 格式 化 或 结构 
化 信息 。 


这 个 定义 的 前 半身 说 得 很 好 ， 但 是 我 不 同意 后 半身 。HTML 就 是 包含 格式 化 和 结构 化 
人 言 息 的 纯 文本 格式 ， 但 它 依然 是 纯 文 本 ， 因 为 HIML 文件 中 的 每 个 字 节 都 表示 文本 字 
Ae (通常 使 用 UTF-8 编码 ) ， 没 有 任何 字 节 表示 文本 之 外 的 信息 。.png 或 .xsl 文档 则 
不 同 ， 其 中 多 数字 节 表 示 打 包 的 二 进 制 值 ， 例 如 RGB 值 和 浮 点 数 。 在 纯 文本 中 ， 数 字 
使 用 数字 符号 序列 表示 。 


这 本 书 是 我 用 一 种 名 为 AsciiDoc (http://www.methods.co.nz/asciidoc/， 很 讽刺 ) 的 纯 
文本 格式 撰写 的 ， 它 是 O'Reilly 优秀 的 图 书 出 版 平台 Atlas (https://atlas.oreilly.com/) 
的 工具 链 中 的 一 部 分 。AsciiDoc 的 源 文件 是 纯 文 本 ， 但 用 的 是 UTF-8 编码 ， 而 不 是 
ASCII。 如 果 不 这 样 做 的 话 ， 撰 写本 章 必定 痛苦 不 堪 。 姑 且 不 管 名 称 ，AsciiDoc 是 个 
很 棒 的 工具 。 


Unicode 的 世界 正在 不 断 扩 张 ， 但 是 有 些 边缘 场景 缺少 支持 工具 。 因 此 图 4-1、 图 4-3 
和 图 4-4 中 的 内 容 要 使 用 图 像 ， 因 为 泻 染 本 书 的 字体 中 缺少 一 些 我 想 展示 的 字符 。 不 
过 ，Ubuntu 14.04 fe OS X 10.9 HASH HE EMET, 246 “mojibake” (LF) 这 
个 日 文 的 词 。 


捉摸 不 透 的 Unicode 


讨论 Unicode 规范 化 时 ， 我 经 常 使 用 “往往 ”“ 多 数 ” 和 “通常 ”等 不 确定 的 修饰 语 。 
很 遗憾 ， 我 不 能 提供 更 可 靠 的 建议 ， 因 为 Unicode 规则 有 很 多 例外 ， 很 难 百分之百 确定 。 


例如 ，h ( 微 符号 ) 是 “兼容 字符 ”,， 而 Q (欧姆 ) 和 A ( 埃 ) 符号 却 不 是 。 这 种 差别 
是 有 真实 影响 的 : NFC 规范 化 形式 (推荐 用 于 文本 匹配 ) 会 把 Q (欧姆 ) 替换 成 Q 
(大 写 希 腊 字 母 欧米 加 ) A ( 埃 ) 替换 成 A (上 有 圆圈 的 大 写字 母 A)。 但 是 ， 作 为 
“兼容 字符 ”的 GRAS) 不 会 替换 成 视觉 等 效 的 u (小 写 希 腊 字 母 u); 不 过 在 使 
用 更 极端 的 NEFKC 或 NFKD 规范 化 形式 时 会 替换 ， 但 这 是 有 损 转 换 。 
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我 能 理解 为 什么 把 由 ( 微 符号 ) 纳入 Unicode, AA latini 编码 中 有 它 ， 如 果 换 成 项 
腊 字 母 nh ， 会 破坏 两 种 编码 之 间 的 转换 。 说 到 底 ， 这 就 是 微 符号 是 “兼容 字符 ”的 原 
因 。 但 是 ， 如 果 是 由 于 兼容 原因 而 没 把 欧姆 和 埃 符 号 纳入 Unicode, MAHAL 
符号 要 存在 ? Unicode 已 经 为 GREEK CAPITAL LETTER OMEGA fe LATIN CAPITAL LETTER 
A WITH RING ABOVE 分 配 了 码 位 ， 它 们 的 外 观 一 样 ， 而 且 NFC 规范 化 形式 会 替换 它们 。 
想 想 看 吧 。 


研究 Unicode 几 小 时 之 后 ， 我 猜测 的 原因 是 : Unicode 异常 复杂 ， 充 满 特 殊 情 况 ， 而 且 
要 履 盖 各 种 人 类 语言 和 产业 标准 策略 。 


在 RAM 中 如 何 表示 字符 串 


Python 官方 文档 对 字符 囊 的 码 位 在 内 存 中 如 何 存储 避 而 不 谈 。 毕 竞 ， 这 是 实现 细节 。 
理论 上 ， 怎 么 存储 都 没关系 : 不 管内 部 表述 如 何 ， 输 出 时 每 个 字符 串 都 要 编码 成 字 节 
序列 。 


在 内 存 中 ，Python 3 使 用 固定 数量 的 字 节 存储 字符 囊 的 各 个 码 位 ， 以 便 高 效 访问 各 个 
字符 或 切片 。 

在 Python 3.3 之 前 ， 编 译 CPython 时 可 以 配置 在 内 存 中 使 用 16 位 或 32 位 存储 各 个 而 
位 。16 位 是 “ 窜 构 建 ”(narrow build) ，32 位 是 “ 宽 构 建 ”(wide build) 。 如 果 想 知道 
用 的 是 哪个 ， 要 查看 sys.maxunicode 的 值 : 65535 AT “EMI”, RAW Hew 
U+FFFF 以 上 的 码 位 。“ 宽 构建 ”没有 这 个 限制 ， 但 是 消耗 的 内 存 更 多 : 每 个 字符 占 4 
个 字 节 ， 就 算是 中 文 象形 文字 的 码 位 大 多 数 也 只 占 2 个 字 节 。 这 两 种 构建 没有 高 下 之 
分 ， 应 该 根据 自己 的 需求 选择 。 


从 Python 3.3 起 ， 创 建 str 对 象 时 ， 解 释 器 会 检查 里 面 的 字符 ， 然 后 为 该 字符 串 选 择 
最 经 济 的 内 存 布局 : RSH APA latint 字符 集中 ， 那 就 使 用 1 个 字 节 存储 每 个 三 
位 ; 否则 ， 根 据 字符 串 中 的 具体 字符 ， 选 择 2 个 或 4 个 字 节 存储 每 个 码 位 。 这 是 简 述 ， 
完整 细节 参阅 “PEP 393 一 Flexible String Representation” (https://www.python.org/dev/ 
peps/pep-0393/) 。 

灵活 的 字符 事 表 述 类 似 于 Python 3 对 int 类 型 的 处 理 方式 : 如 果 一 个 整数 在 一 个 机 器 
字 中 放 得 下 ， 那 就 存储 在 一 个 机 器 字 中 ; 否则 解释 器 切换 成 变 长 表述 ， 类 似 于 Python 2 
中 的 long 类 型 。 这 种 聪明 的 做 法 得 到 推广 ， 真 是 让 人 欢喜 | 














第 三 部 分 





把 函数 视 作对 象 





不 管 别人 怎么 说 或 怎么 起， 我 从 未 觉得 Python 受到 来 自 函 数 式 语言 的 太 多 影响 。 我 
非常 熟悉 命 令 式 语言 ， 如 C 和 Algol 68， 虽 然 我 把 函数 定 为 一 等 对 象 ， 但 是 我 并 不 
把 Python 当 作 函数 式 编程 语言 。” 





Guido van Rossum 


Python 仁慈 的 独裁 者 
在 Python 中 ， 函 数 是 一 等 对 象 。 编 程 语言 理论 家 把 “一 等 对 象 ”定义 为 满足 下 述 条 件 的 程 
序 实体 : 
。 在 运行 时 创建 
。 能 赋值 给 变量 或 数据 结构 中 的 元 素 
。 能 作为 参数 传 给 函数 
。 能 作为 函数 的 返回 结果 
在 Python 中 ， 整 数 、 字 符 串 和 字典 都 是 一 等 对 象 一 一 没什么 特别 的 。 如 果 在 Python 之 前 ， 
你 使 用 的 语言 并 未 把 函数 当 作 一 等 公民 ， 那 么 本 章 以 及 第 三 部 分 余下 的 内 容 将 重点 讨论 把 
国 数 作为 对 象 的 影响 和 实际 应 用 。 





























人 们 经 常 将 “把 函数 视 作 一 等 对 象 ”简称 为 “一 等 国 数 "。 这 样 说 并 不 完美 ， 
似乎 表明 这 是 函数 中 的 特殊 群体 。 在 Python 中 ， 所 有 国 数 都 是 一 等 对 象 。 











注 1: 摘录 自 Guido 的 The History of Python 博客 ,“Origins of Python’s Functional Features” (http://python- 
history.blogspot.jp/2009/04/origins-of-pythons-functional-features.html) 。 
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5.1 把 函数 视 作 对 和 象 


示例 5-1 中 的 控制 台 会 话 表 明 ，Python 函数 是 对 象 。 这 里 我 们 创建 了 一 个 函数 ， 然 后 调用 
它 ， 读 取 它 的 doc 属性 ， 并 且 确 定 函 数 对 象 本 身 是 function 类 的 实例 。 








示例 5-1 创建 并 测试 一 个 函数 ， 然 后 读 取 它 的 doc 属性 ， 再 检查 它 的 类 型 
>>> def factorial(n): @ 
ae '''returns n! 
return 1 if n < 2 else n * factorial(n-1) 





>>> factorial(42) 
1405006117752879898543142606244511569936384000000000 
>>> factorial. _doc_ @ 

"returns n!' 

>>> type(factorial) © 

<class 'function'> 


@ 这 是 一 个 控制 台 会 话 ， 因 此 我 们 是 在 “运行 时 ”创建 一 个 函数 。 
O _doc_ 是 函数 对 象 众 多 属性 中 的 一 个 。 
© factorial 是 function 类 的 实例 。 


__doc__ 属性 用 于 生成 对 象 的 帮助 文本 。 在 Python 交互 式 控制 台中 ，help(factorial) 命令 
输出 的 内 容 如 图 5-1 所 示 。 




















eoo 1. less 2 
Help on function factorial in module 


_main__: 


factorial(n) 
returns n! 


图 5-1: factorial 函数 的 帮助 界面 ， 输 出 的 文本 来 自 函数 对 象 的 _doc__ 属性 

















示例 5-2 展示 了 函数 对 象 的 “一 等 ”本 性 。 我 们 可 以 把 factorial 函数 赋值 给 变量 fact, 
然后 通过 变量 名 调用 。 我 们 还 能 把 它 作 为 参数 传 给 map 函数 。map pA BIR E — Ay I RT 
象 ， 里 面 的 元 素 是 把 第 一 个 参数 (一 个 函数 ) 应 用 到 第 二 个 参数 〈 一 个 可 迭代 对 象 ， 这 里 
是 range(11)) 中 各 个 元 素 上 得 到 的 结果 。 


示例 5-2 通过 别 的 名 称 使 用 函数 ， 再 把 函数 作为 参数 传递 
>>> fact = factorial 
>>> fact 
<function factorial at Ox...> 
>>> fact(5) 
120 
>>> map(factorial, range(11)) 
<map object at Ox...> 















































>>> List(map(fact, range(11))) 
[1, 1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] 


有 了 一 等 函数 ， 就 可 以 使 用 函数 式 风 格 编程 。 函 数 式 编程 的 特点 之 一 是 使 用 高 阶 函 数 一 一 
这 是 下 一 刷 的 话题 。 





接受 函数 为 参数 ， 或 者 把 函数 作为 结果 返回 的 函数 是 高 阶 函 数 (higher-order function), 
map 国 数 就 是 一 例 ， 如 示例 5-2 所 示 。 此 外 ， 内 置 函数 sorted 也 是 : 可 选 的 key 参数 用 于 
提供 一 个 函数 ， 它 会 应 用 到 各 个 元 素 上 进行 排序 ， 参 见 2.7 节 。 


例如 ， 若 想 根 据 单词 的 长 度 排序 ， 只 需 把 len 函数 传 给 key 参数 ， 如 示例 5-3 所 示 。 
示例 5-3 根据 单词 长 度 给 一 个 列表 排序 


>>> fruits = ['strawberry', 'fig', 'apple', 'cherry', 'raspberry', 'banana'] 
>>> sorted(fruits, key=len) 

['fig', 'apple', 'cherry', 'banana', 'raspberry', 'strawberry'] 

>>> 


任何 单 参数 函数 都 能 作为 key 参数 的 值 。 例 如 ， 为 了 创建 押韵 词典 ， 可 以 把 各 个 单词 反 过 
来 拼写 ， 然 后 排序 。 注 意 ， 示 例 5-4 中 列表 里 的 单词 没有 变 ， 我 们 只 是 把 反 向 拼写 当 作 排 
序 条 件 ， 因 此 各 种 浆果 (berry) 都 排 在 一 起 。 


示例 5-4 根据 反 向 拼写 给 一 个 单词 列表 排序 
>>> def reverse(word): 
return word[::-1] 
>>> reverse('testing') 
'gnitset' 
>>> sorted(fruits, key=reverse) 
['banana', 'apple', 'fig', 'raspberry', 'strawberry', 'cherry'] 
>>> 


在 函数 式 编程 范式 中 ， 最 为 人 熟知 的 高 阶 函 数 有 map、filter、reduce 和 apply, apply FÁ 
ŽUTE Python 2.3 中 标记 为 过 时 ， 在 Python 3 中 移 除了 ， 因 为 不 再 需要 它 了 。 如 果 想 使 用 
不 定量 的 参数 调用 函数 ， 可 以 编写 fn(*args，**keywords)， 不 用 再 编写 apply(fn, args, 


kwargs), 


map, filter 和 reduce X = iS BUD HELE, Aiko Bee dose Pa eae kno 
详情 参阅 下 一 市 。 


map、fiLter 和 reduce 的 现代 替代 品 


函数 式 语言 通常 会 提供 map, filter 和 reduce 三 个 高 阶 函 数 (有 了 时 使 用 不 同 的 名 称 )。 在 
Python 3 中 ，map 和 filter 还 是 内 置 函数 ， 但 是 由 于 引入 了 列表 推导 和 生成 器 表达 式 ， 它 
们 变 得 没 那 么 重要 了 。 列 表 推 导 或 生成 器 表达 式 具 有 map 和 filter 两 个 函数 的 功能 ， 而 且 
更 易于 阅读 ， 如 示例 5-5 所 示 。 






































示例 5-5 计算 阶乘 列表 : map 和 Filter 与 列表 推导 比较 
>>> list(map(fact, range(6))) © 
[1, 1, 2, 6, 24, 120] 
>>> [fact(n) for n in range(6)] @ 
[1, 1, 2, 6, 24, 120] 
>>> List(map(factorial, filter(lambda n: n % 2, range(6)))) © 
[1, 6, 120] 
>>> [factorial(n) for n in range(6) if n% 2] @ 
[1, 6, 120] 


@ 构建 0! 到 5! 的 一 个 阶乘 列表 。 

O 使 用 列表 推导 执行 相同 的 操作 。 

© (EH map 和 filter 计算 直到 5! 的 奇数 阶乘 列表 。 

O 使 用 列表 推导 做 相同 的 工作 ， 换 掉 map 和 filter, Hitte TEH Lambda 表达 式 。 


在 Python 3 41, map 和 filter 返回 生成 器 〈 一 种 迭代 器 )， 因 此 现在 它们 的 直接 替代 品 是 
生成 器 表达 式 (在 Python 2 中 ， 这 两 个 国 数 返 回 列表 ， 因 此 最 接近 的 替代 品 是 列表 推导 ) 。 


在 Python 2 中 ，reduce 是 内 置 国 数 ， 但 是 在 Python 3 中 放 到 functools 模块 里 了 。 这 个 图 
数 最 常用 于 求 和 ， 自 2003 年 发 布 的 Python 2.3 开始 ， 最 好 使 用 内 置 的 sun 函数 。 在 可 读 性 
和 性 能 方面 ， 这 是 一 项 重大 改善 ( 见 示 例 5-6). 


示例 5-6 使 用 reduce 和 sum 计算 0~99 之 和 
>>> from functools import reduce @ 
>>> from operator import add @ 
>>> reduce(add, range(100)) © 
4950 
>>> sum(range(100)) @ 

4950 


>>> 


@ 从 Python 3.0 Œ, reduce 不 再 是 内 置 国 数 了 。 

O 导入 add， 以 免 创建 一 个 专 求 两 数 之 和 的 函数 。 

© 计算 0~99 之 和 。 

O 使 用 sum 做 相同 的 求 和 ， 无需 导 入 或 创建 求 和 函数 。 


sum 和 reduce 的 通用 思想 是 把 某 个 操作 连续 应 用 到 序列 的 元 素 上 ， 累 计 之 前 的 结果 ， 把 一 
系列 值 归 约 成 一 个 值 。 


all 和 any 也 是 内 置 的 归 约 函数 。 
all(iterable) 
如 果 iterable 的 每 个 元 素 都 是 真 值 ， 返 回 True; all([]) 返回 True, 
any(iterable) 
只 要 iterable 中 有 元 素 是 真 值 ， 就 返回 True; any([]) 返回 False, 
10.6 节 将 深入 说 明 reduce 函数 ， 我 会 不 断 改进 一 个 示例 ， 为 这 个 函数 提供 有 意义 的 上 下 
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文 。 本 书后 面 的 14.11 节 将 重点 讨论 可 迭代 对 象 ， 届 时 会 概述 各 个 归 约 国 数 。 


为 了 使 用 高 阶 函 数 ， 有 时 创建 一 次 性 的 小 型 函数 更 便利 。 这 便 是 匿名 函数 存在 的 原因 ， 下 
一 节 将 会 讨论 。 


5.3 匿名 函数 
Lambda 关键 字 在 Python 表达 式 内 创建 匿名 函数 。 


然而 ，Python 简单 的 句法 限制 了 Lambda 函数 的 定义 体 只 能 使 用 纯 表 达 式 。 换 句 话 说 ， 
Lambda 函数 的 定义 体 中 不 能 赋值 ， 也 不 能 使 用 while 和 try 等 Python 语句 。 


在 参数 列表 中 最 适合 使 用 匿名 函数 。 例 如 ， 示 例 5-7 使 用 Lambda 表达 式 重 写 了 示例 5-4 中 
排序 押韵 单词 的 示例 ， 这 样 就 省 掉 了 reverse 函数 。 


示例 5-7 使 用 Lambda 表达 式 反 转 拼 写 ， 然 后 依 此 给 单词 列表 排序 
>>> fruits = ['strawberry', 'fig', 'apple', 'cherry', 'raspberry', 'banana'] 
>>> sorted(fruits, key=lambda word: word[::-1]) 
['banana', 'apple', 'fig', 'raspberry', 'strawberry', 'cherry'] 
>>> 


除了 作为 参数 传 给 高 阶 国 数 之 外 ，Python 很 少 使 用 匿名 函数 。 由 于 句法 上 的 限制 ， 非 平 几 
的 Lambda 表达 式 要 么 难以 陪读， 要 么 无 法 写 出 。 




































































Lundh 提出 的 lambda RIAN SMM 
如 果 使 用 Lambda 表达 式 导 致 一 段 代 码 难 以 理解 ，Fredrik Lundh 建议 像 下 面 这 样 重 构 。 
(1) 编写 注释 ， 说 明 lambda 表达 式 的 作用 。 
(2) 研究 一 会 儿 注 释 ， 并 找 出 一 个 名 称 来 概括 注释 。 
(3) 把 lambda 表达 式 转换 成 def 语 身 ， 使 用 那个 名 称 来 定义 函数 。 
(4) 删除 注释 。 
JLF “Functional Programming HOWTO” (https://docs.python.org/3/howto/functional. 
html) ， 这 是 一 篇 必 读 文章 。 











Lambda 句法 只 是 语法 糖 : 与 def 语 名 一样，Lambda 表达 式 会 创建 国 数 对 象 。 这 是 Python 
中 儿 种 可 调用 对 象 的 一 种 。 下 一 市 会 说 明 所 有 可 调用 对 和 象 。 


54 可 调用 对 象 
除了 用 户 定 义 的 函数 ， 调 用 运算 符 ( 即 ()) 还 可 以 应 用 到 其 他 对 象 上 。 如 果 想 判断 对 象 能 
否 调 用 ， 可 以 使 用 内 置 的 callable() Bc, Python 数据 模型 文档 列 出 了 7 种 可 调用 对 象 。 
用 户 定 义 的 函数 

使 用 def 语句 或 lambda 表达 式 创 建 。 
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内 置 函数 
使 用 C 语言 (CPython) 实现 的 函数 ， 如 len 或 time.strftime。 

内 置 方法 
使 用 C 语言 实现 的 方法 ， 如 dict.get, 

方法 
在 类 的 定义 体 中 定义 的 函数 。 

类 
调用 类 时 会 运行 类 的 _new ”方法 创建 一 个 实例 ， 然 后 运行 init 方法 ,初始 化 实 
例 ， 最 后 把 实例 返回 给 调用 方 。 因 为 Python 没有 new 运算 符 ， 所 以 调用 类 相当 于 调用 
函数 。( 通 常 ， 调 用 类 会 创建 那个 类 的 实例 ， 不 过 和 窗 盖 _new_ 方法 的 话 ， 也 可 能 出 现 
其 他 行为 。19.1.3 节 会 见 到 一 个 例子 。) 








类 的 实例 
如 果 类 定义 了 __call__ 方法， 那么 它 的 实例 可 以 作为 函数 调用 。 参 见 5.5 市 。 
生成 器 函数 


使 用 yield 关键 字 的 函数 或 方法 。 调 用 生成 器 函数 返回 的 是 生成 器 对 象 。 


生成 器 函数 在 很 多 方面 与 其 他 可 调用 对 象 不 同 ， 详 情 参见 第 14 章 。 生 成 器 函数 还 可 以 作 
为 协 程 ， 参 见 第 16 章 。 


Python 中 有 各 种 各 样 可 调用 的 类 型 ， 因 此 判断 对 象 能 否 调用 ， 最 安全 的 方法 
是 使 用 内 置 的 callable() 函数 : 

>>> abs, str, 13 

(<built-in function abs>, <class 'str'>, 13) 


>>> [callable(obj) for obj in (abs, str, 13)] 
[True, True, False] 






































接 下 来 说 明 如 何 把 类 的 实例 变 成 可 调用 的 对 象 。 


55 ”用户 定 义 的 可 调用 类 型 

不 仅 Python 函数 是 真正 的 对 象 ， 任 何 Python 对 象 都 可 以 表现 得 像 函数 。 为 此 ， 只 需 实现 
实例 方法 al. 

示例 5-8 实现 了 Bingocage 类 。 这 个 类 的 实例 使 用 任何 可 选 代 对 象 构建 而且 会 在 内 部 存 
储 一 个 随机 上 顺序 排列 的 列表 。 调 用 实例 会 取出 一 个 元 素 。 


示例 5-8 bingocall.py: 调用 BingoCage 实例 ， 从 打 乱 的 列表 中 取出 一 个 元 素 


import random 





class BingoCage: 





def _ init__(self, items): 
self._items = list(items) @ 
random.shuffle(self._items) @ 


def pick(self): © 
try: 
return self._items.pop() 
except IndexError: 
raise LookupError('pick from empty BingoCage') @ 


def _call_ (self): 日 
return self.pick() 


O init PES ANH, ARE TRIAS, ERER ITE 
@ shuffle 定 能 完成 工作 ， 因 为 self._items 是 列表 。 
O 起 主要 作用 的 方法 。 
O 如 果 self._items 为 空 ， 抛 出 异常 ， 并 设 定 错误 消息 。 
© bingo.pick() 的 快捷 方式 是 bingo()。 
下 面 是 示例 5-8 Sere TER, bingo 实例 可 以 作为 函数 调用 ， 而 且 内 置 
的 callable(...) 函数 判定 它 是 可 调用 的 对 象 : 

>>> bingo = BingoCage(range(3)) 

>>> bingo.pick() 

1 

>>> bingo() 

0 


>>> callable(bingo) 
True 


实现 call 方法 的 类 是 创建 函数 类 对 象 的 简便 方式 ， 此 时 必须 在 内 部 维护 一 个 状态 ， 让 
它 在 调用 之 间 可 用 ， 例 如 BingoCage 中 的 剩余 元 素 。 装 饰 器 就 是 这 样 。 装 饰 器 必须 是 函数 ， 
而 且 有 时 要 在 多 次 调用 之 间 “ 记 住 ” 某 些 事 [例如 备 忘 (memoization)， 即 缓存 消耗 大 的 
计算 结果 ， 供 后 面 使 用 ]。 

创建 保有 内 部 状态 的 函数 ， 还 有 一 种 截然 不 同 的 方式 一 一 使 用 闭 包 。 闭 包 和 装饰 器 在 第 7 
章 讨论 。 

下 面 讨 论 把 函数 视 作对 象 处 理 的 另 一 方面 : 运行 时 内 省 。 


5.6 ”函数 内 省 
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BRT doc _， 函 数 对 象 还 有 很 多 属性 。 使 用 dir 函数 可 以 探知 factorial 具有 下 述 属 性 : 
>>> dir(factorial) 


__defaults__', '_ delattr ', '_dict__', '_dir__', '_doc__', '_eq_', 


['__annotations__', '__call__', '_class__', '__closure__', '_code__', 

'_ format ', '_ge__', '_get__', '_getattribute__', '_globals__', 

' gt_', '_hash__', '__init__', '__kwdefaults__', '_le_', '_lt_', 

'_ module__', '__name__', '_ne__', '__new__', '__qualname__', '__ reduce __', 
'_reduce ex ', '_repr__', '__setattr__', '_sizeof__', '_str__', 





__subclasshook__'] 
>>> 


其 中 大 多 数 属性 是 Python 对 象 共 有 的 。 本 市 讨论 与 把 函数 视 作 对 象 相关 的 几 个 属性 ， 先 从 





dict__ 开始 。 











与 用 户 定义 的 常规 类 一 样 ， 函 数 使 用 dict 属性 存储 赋予 它 的 用 户 属 性 。 这 相当 于 一 种 


基本 形式 的 注解 。 一 般 来 说 ， 为 函数 随意 赋予 属性 不 是 很 常见 的 做 法 ， 但 是 Django # 


EAR 





这 么 做 了 。 参 见 “The Django admin site” 3¢#4 (https://docs.djangoproject.com/en/1.10/ref/ 
contrib/admin/) 中 对 short_description, boolean 和 allow_tags 属性 的 说 明 。 这 篇 Django 


文档 中 举 了 











个 方法 时 ， 在 记录 列表 中 会 出 现 指定 的 描述 文本 : 


def upper_case_name(obj): 
return ("%s %s" % (obj.first_name, obj.last_name)).upper() 
upper_case_name.short_description = ‘Customer name' 


下 面 重 点 说 明 函 数 专 有 而 用 户 定义 的 一 般 对 象 没有 的 属性 。 计 算 两 个 属性 集合 的 差 集 便 能 
得 到 函数 专 有 属性 列表 ( 见 示 例 5-9)。 


示例 5-9 列 出 常规 对 象 没 有 而 函数 有 的 属性 











#0 


class C: pass 


>>> obj = C() #0 
>>> def func(): pass # © 
>>> sorted(set(dir(func)) - set(dir(obj))) # @ 
['__annotations__', '_call__', '_closure__', '_code__', '_defaults__', 
'_get ', '_globals__', '__kwdefaults__', '__name__', ' __qualname_'] 
>>> 

@ 创建 一 个 空 的 用 户 定义 的 类 。 

O 创建 一 个 实例 。 

© 创建 一 个 空 函数 。 





@ 计算 差 集 ， 然 后 排序 ， 得 到 类 的 实例 没有 而 函数 有 的 属性 列 | 于 


表 5-1 对 示例 5-9 中 列 出 的 属性 做 了 简要 说 明 。 
表 5-1: 用 户 定义 的 函数 的 属性 








am 
o 


下 述 示例 ， 把 short_description 属性 赋予 一 个 方法 ，Django 管理 后 台 使 用 这 





















































名 称 类 型 说 明 

__annotations__ dict 参数 和 返回 值 的 注解 

__call__ method-wrapper 实现 O 运算 符 ;， 即 可 调用 对 象 协 议 
__closure__ tuple 函数 闭 包 ， 即 自由 变量 的 绑 定 (通常 是 None) 
—code_ code 编译 成 字 市 码 的 函数 元 数据 和 函数 定义 体 

_ defauLts_ tuple 形式 参数 的 默认 值 

gets. method-wrapper 实现 只 读 描述 符 协议 (参见 第 20 章 ) 
_slobals_ dict 函数 所 在 模块 中 的 全 局 变量 

一 kwdefautts_ dict 又 限 关 键 字 形式 参数 的 默认 值 
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名 称 类 型 说 明 
_name str 函数 名 称 
__qualname__ str 函数 的 限定 名 称 ， 如 Random.choice (参阅 PEP 3155, https://www. 


python.org/dev/peps/pep-3155/) 


后 面 几 市 会 讨论 _defaults_、__code_ FH __annotations_ 属性 ，IDE 和 框架 使 用 它们 
提取 关于 函数 签名 的 信息 。 但 是 ， 为 了 深 入 了 解 这 些 属性 ， 我 们 要 先 探 讨 Python 为 声明 函 
数 形 参 和 传 入 实 参 所 提供 的 强大 句法 。 


5.7 ”从 定位 参数 到 仅 限 关 键 字 参 数 


Python 最 好 的 特性 之 一 是 提供 了 极为 灵活 的 参数 处 理 机 制 ， 而 且 Python 3 进一步 提供 了 仅 
限 关 键 字 参 数 (keyword-only argument) 。 与 之 密切 相关 的 是 ， 调 用 函数 时 使 用 * 和 **“ 展 
开 ” 可 和 迭代 对 象 ， 映 射 到 单个 参数 。 下 面 通过 示例 5-10 中 的 代码 展示 这 些 特 性 ， 实 际 使 用 
的 代码 在 示例 5-11 中 。 


示例 5-10 tag 国 数 用 于 生成 HTML 标签 ， 使 用 名 为 cls 的 关键 字 参 数 传 信 “class” 属 
性 ， 这 是 一 种 变通 方法 ， 因 为 “class” 是 Python 的 关键 字 
def tag(name, *content, cls=None, **attrs): 
wu "生成 一 个 或 多 个 HTML 标 签 " wu 
if cls is not None: 
attrs['class'] = cls 





























if attrs: 
attr_str = ''.join(' %s="%s"' % (attr, value) 
for attr, value 
in sorted(attrs.items())) 
else: 
attr_str = '' 
if content: 


return '\n'.join('<%s%s>%s</%s>' % 
(name, attr_str, c, name) for c in content) 
else: 
return '<%s%s />' % (name, attr_str) 


tag 函数 的 调用 方式 很 多 ， 如 示例 5-11 所 示 。 


示例 5-11 tag 函数 〈 见 示例 5-10) 众多 调用 方式 中 的 几 种 
>>> tag('br') © 
‘<br />' 
>>> tag('p', 'hello') @ 
'<p>hello</p>' 
>>> print(tag('p', 'hello', 'world')) 
<p>hello</p> 
<p>wor Ld</p> 
>>> tag('p', 'hello', id=33) © 
‘<p id="33">hello</p>' 
>>> print(tag('p', 'hello', 'world', cls='sidebar')) @ 
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<p class="sidebar">hello</p> 
<p class="sidebar">world</p> 
>>> tag(content='testing', name="img") @ 
‘<img content="testing" />' 
>>> my_tag = {'name': 'img', 'title': 'Sunset Boulevard', 
hace "src': 'sunset.jpg', 'cls': 'framed'} 
>>> tag(**my_tag) QO 
‘<img class="framed" src="sunset.jpg" title="Sunset Boulevard" />' 
O 传人 单个 定位 参数 ， 生 成 一 个 指定 名 称 的 空 标签 。 
O 第 一 个 参数 后 面 的 任意 个 参数 会 被 *content 捕获 ， 存 人 一 个 元 组 。 
© tag 函数 签名 中 没有 明确 指定 名 称 的 关键 字 参 数 会 被 **attrs 捕获 ， 存 入 一 个 字典 。 
O cls 参数 只 能 作为 关键 字 参 数 传 入 。 
© 调用 tag 函数 时 ， 即 便 第 一 个 定位 参数 也 能 作为 关键 字 参 数 传 入 。 
© 在 my_tag 前 面 加 上 **， 字 时 中 的 所 有 元 素 作为 单个 参数 传人 ， 同 名 键 会 绑 定 到 对 应 的 
具名 参数 上 ， 余 下 的 则 被 **attrs 捕获 。 


仅 限 关键 字 参 数 是 Python 3 新 增 的 特性 。 在 示例 5-10 中 ，cls 参数 只 能 通过 关键 字 参 数 指 
定 ， 它 一 定 不 会 捕获 未 命名 的 定位 参数 。 定 义 国 数 时 若 想 指定 仅 限 关键 字 参 数 ， 要 把 它们 
放 到 前 面 有 * 的 参数 后 面 。 如 果 不 想 支持 数量 不 定 的 定位 参数 ， 但 是 想 文 持 仅 限 关 键 字 参 
数 ， 在 签名 中 放 一 个 *， 如 下 所 示 : 


>>> def f(a, *, b): 
k return a, b 












































>>> f(1, b=2) 
(1, 2) 


注意 ， 仅 限 关 键 字 参数 不 一 定 要 有 默认 值 ， 可 以 像 上 例 中 b 那样 ， 强 制 必须 传 入 实 参 。 
下 面 说 明 国 数 参数 的 内 省 ， 以 一 个 Web 框架 中 的 示例 为 引子 ， 然 后 再 讨论 内 省 技术 。 


5.8 获取 关于 参数 的 信息 


HTTP 微 框 架 Bobo 中 有 个 使 用 国 数 内 省 的 好 例子 。 示 例 5-12 是 对 Bobo 教程 中 “Hello 
world” 应 用 的 改编 ， 说 明了 内 省 怎么 使 用 。 


示例 5-12 Bobo 知道 hello 需要 person 参数 ， 并 且 从 HTTP 请 求 中 获取 它 
import bobo 
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@bobo.query('/') 
def hello(person): 
return 'Hello %s!' % person 


bobo. query 装饰 器 把 一 个 普通 的 函数 (如 hello) 与 框架 的 请 求 处 理 机 制 集 成 起 来 了 。 装 
饰 器 会 在 第 7 章 讨论 ， 这 不 是 这 个 示例 的 关键 。 这 里 的 关键 是 ，Bobo BAF hello 函数 ， 
发 现 它 需 要 一 个 名 为 person 的 参数 ， 然 后 从 请 求 中 获取 那个 名 称 对 应 的 参数 ， 将 其 传 给 
hello 函数 ， 因 此 程序 员 根 本 不 用 触 磁 请 求 对 象 。 




















安装 Bobo， 然 后 启动 开发 服务 器 ， 执 行 示例 5-12 中 的 脚本 (án, bobo -f hello.py)。 
访问 http://Locathost:8080/ 看 到 的 消息 是 “Missing form variable person”, HTTP 状态 码 
是 403。 这 是 因为 ，Bobo 知道 调用 hello 函数 必须 传 入 person 参数 ， 但 是 在 请 求 中 找 不 到 
同名 参数 。 示 例 5-13 在 shell 会 话 中 使 用 curl 展示 了 这 个 行为 。 


示例 5-13 ”如 果 请 求 中 缺少 了 国 数 的 参数 ，Bobo 返回 403 forbidden 响应 ;curl -i 的 作用 











是 把 首部 转 储 到 标准 答 
$ curl -i http://localhost:8080/ 
HTTP/1.0 403 Forbidden 
Date: Thu, 21 Aug 2014 21:39:44 GMT 
Server: WSGIServer/0.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 
Content-Length: 103 


EE 


<html> 

<head><title>Missing parameter</title></head> 
<body>Missing form variable person</body> 
</html> 


然而 ， 如 果 访 问 http://LocaLhost:8080/?person=Jim， 了 响应 会 变 成 字符 串 'Hello Jim!', 
如 示例 5-14 所 示 。 


示例 5-14 传人 所 需 的 person 参数 才能 得 到 OK 响应 


$ curl -i http://localhost:8080/?person=Jim 
HTTP/1.0 200 OK 

Date: Thu, 21 Aug 2014 21:42:32 GMT 

Server: WSGIServer/0.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 
Content-Length: 10 


Hello Jim! 


Bobo 是 怎么 知道 函数 需要 哪个 参数 的 呢 ? 它 又 是 怎么 知道 参数 有 没有 默认 值 呢 ? 
函数 对 象 有 个 defaults “属性 ， 它 的 值 是 一 个 元 组 ， 里 面 保存 着 定位 参数 和 关键 字 参 
数 的 默认 值 。 仅 限 关键 字 参 数 的 默认 值 在 _kwdefaults_ 属性 中 。 然 而 ， 参 数 的 名 称 在 
code _ 属性 中 ， 它 的 值 是 一 个 code 对 象 引 用 ， 自 身 也 有 很 多 属性 。 

为 了 说 明 这 些 属性 的 用 途 ， 下 面 在 clip.py 模块 中 定义 clip 函数， 如 示例 5-15 所 示 ， 然 后 
再 审查 它 。 


示例 5-15 在 指定 长 度 附 近 截 断 字符 串 的 函数 














def clip(text, max_len=80): 
""" 在 max_tLen 前 面 或 后 面 的 第 一 个 空格 处 截断 文本 
end = None 
if len(text) > max_len: 
space_before = text.rfind(' ', 0, max_len) 
if space_before >= 0: 
end = space_before 
else: 
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space_after = text.rfind(' ', max_len) 
if space_after >= 0: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 


示例 5-16 审查 示例 5-15 中 定义 的 clip eRe, ÆA __defaults__. __code__.co_varnames 和 
__code__.co_argcount 的 值 。 


示例 5-16 提取 关于 函数 参数 的 信息 
>>> from clip import clip 
>>> clip.__defaults__ 
(80, ) 
>>> clip._code__ # doctest: +ELLIPSIS 
<code object clip at Ox...> 
>>> clip.__code__.co_varnames 
('text', 'max_len', 'end', 'space_before', 'space_after') 
>>> clip.__code__.co_argcount 
2 


可 以 看 出 ， 这 种 组 织 信 息 的 方式 并 不 是 最 便利 的 。 参 数 名 称 在 _code__.co_varnames 中 ， 
不 过 里 面 还 有 函数 定义 体 中 创建 的 局 部 变量 。 因 此 ， 参 数 名 称 是 前 YX 个 字符 串 ，X 的 值 由 
__code__.co_argcount 确定 。 顺 便 说 一 下 ， 这 里 不 包含 前 缀 为 * 或 ** 的 变 长 参数 。 参 数 的 
默认 值 只 能 通过 它们 在 __defaults_ 元 组 中 的 位 置 确 定 ， 因 此 要 从 后 向 前 扫描 才能 把 参数 
和 默认 值 对 应 起 来 。 在 这 个 示例 中 clip 函数 有 两 个 参数 ，text 和 max_len， 其 中 一 个 有 默 
认 值 ， 即 88， 因 此 它 必然 属于 最 后 一 个 参数 ， 即 nax_ten。 这 有 违 常理 。 


幸好 ， 我 们 有 更 好 的 方式 一 一 使 用 inspect 模块 。 
下 面 来 看 一 下 示例 5-17. 


示例 5-17 提取 函数 的 签名 ” 
>>> from clip import clip 
>>> from inspect import signature 
>>> sig = signature(clip) 
>>> sig # doctest: +ELLIPSIS 
<inspect.Signature object at 0x...> 
>>> str(sig) 
"(text, max_len=80)' 
>>> for name, param in sig.parameters.items(): 


print(param.kind, ':', name, '=', param.default) 





















































POSITIONAL_OR_KEYWORD : text = <class 'inspect._empty'> 
POSITIONAL_OR_KEYWORD : max_len = 80 





这 样 就 好 多 了 。inspect.signature 国 数 返 回 一 个 inspect.Signature 对 象 ， 它 有 一 个 parameters 
属性 ， 这 是 一 个 有 序 映 射 ， 把 参数 名 和 inspect Parameter 对 象 对 应 起 来 。 各 个 Parameter 属性 
也 有 自己 的 属性 ， 例 如 name, default 和 kind。 特 殊 的 inspect._empty 值 表示 没有 默认 值 ， 考 




















注 2: 在 Python 3.5 中 ， 本 示例 的 sig 的 值 是 : <Signature (text, max_len=80)>, 一 一 编者 注 
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JES] None 是 有 效 的 默认 值 (也 经 常 这 么 做 )， 而 且 这 么 做 是 合理 
kind 属性 的 值 是 _ParameterKind 类 中 的 5 个 值 之 一 ， 列 举 如 下 。 

















POSITIONAL_OR_KEYWORD 
可 以 通过 定位 参数 和 关键 字 参 数 传人 的 形 参 (多数 Python K 
VAR_POSITIONAL 
定位 参数 元 组 。 
VAR_KEYWORD 
关键 字 参 数字 典 。 
KEYWORD_ONLY 
仅 限 关键 字 参 数 (Python 3 新 增 ) 。 
POSITIONAL_ONLY 


仅 限 定位 参数 ， 目 前 ，Python 声明 国 数 的 句法 不 支持 ， 但 
接受 关键 字 参 数 的 国 数 (如 divmod) 支持 。 








的 。 


函数 的 参数 属于 此 类 )。 


是 有 些 使 用 C 语言 实现 且 不 


除了 name、default 和 kind，inspect.Parameter 对 象 还 有 一 个 annotation (注解 ) 属性 ， 
它 的 值 通 常 是 inspect._empty， 但 是 可 能 包含 Python 3 新 的 注解 句法 提供 的 函数 签名 元 数 


据 (注解 在 下 一 市 讨论 )。 





inspect. Signature 对 象 有 个 bind 方法 ， 它 可 以 把 任意 个 参数 绑 定 到 签名 中 的 形 参 上 ， 所 
用 的 规则 与 实 参 到 形 参 的 匹配 方式 一 样 。 框 架 可 以 使 用 这 个 方法 在 真正 调用 函数 前 验证 参 





数 ， 如 示例 5-18 所 示 。 


示例 5-18 把 tag 函数 ( 见 示 例 5-10) 的 签名 绑 定 到 一 个 参数 字典 上 





>>> import inspect 

>>> sig = inspect.signature(tag) @ 

>>> my_tag = {'name': 'img', 'title': 'Sunset Boulevar 
are src': 'sunset.jpg', 'cls': 'framed'} 
>>> bound_args = sig.bind(**my_tag) @ 

>>> bound_args 

<inspect.BoundArguments object at 0x...> © 


d', 


>>> for name, value in bound_args.arguments.items(): @ 
print(name, '=', value) 

Name = img 

cls = framed 

attrs = {'title': ‘Sunset Boulevard', 'src': 'sunset.jpg'} 


>>> del my_tag['name'] © 
>>> bound_args = sig.bind(**my_tag) @ 
Traceback (most recent call last): 





HE 3: 在 Python 3.5 中 ， 本 示例 的 bound_args 的 值 是 : <BoundArguments (name='img', cls='framed', attrs={'title': 





‘Sunset Boulevard' 'src': 'sunset.jpg'})>, 一 一 编者 注 
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TypeError: 'name' parameter Lacking default value 


@ 获取 tag 函数 ( 见 示例 5-10) 的 签名 。 

O 把 一 个 字典 参数 传 给 .bind() 方法 。 

© 得 到 一 个 inspect.BoundArguments 对 象 。 

© j&{& bound_args.arguments (一 个 0rderedDict HR) 中 的 元 素 ， 显 示 参 数 的 名 称 和 值 。 
O 把 必须 指定 的 参数 name 从 my_tag 中 删除 。 

QO 调用 sig.bind(**my_tag)， 抛 出 TypeError， 抱 名 缺少 name 参数 。 


这 个 示例 在 inspect 模块 的 帮助 下 ， 展 示 了 Python 数据 模型 把 实 参 绑 定 给 函数 调用 中 的 形 
参 的 机 制 ， 这 与 解释 器 使 用 的 机 制 相 同 。 


框架 和 IDE 等 工具 可 以 使 用 这 些 信息 验证 代码 。Python 3 的 另 一 个 特性 一 一 函数 注解 一 一 
增进 了 这 些 信息 的 用 途 ， 参 见 下 一 市 。 


5.9 ”函数 注解 

Python 3 提供 了 一 种 句法 ， 用 于 为 函数 声明 中 的 参数 和 返回 值 附 加 元 数据 。 示 例 5-19 是 示 
例 5-15 添加 注解 后 的 版 本 ， 二 者 唯一 的 区 别 在 第 一 行 。 

示例 5-19 有 注解 的 clip 函数 


def 人 DC str, max_len:'int > 0'=80) -> str: @ 
”在 max_tLen 前 面 或 后 面 的 第 一 个 空格 处 截断 文本 
























































end = None 
if len(text) > max_len: 
space_before = text.rfind(' ', 0, max_len) 
if space_before >= 0: 
end = space_before 
else: 
space_after = text.rfind(' ', max_len) 
if space_after >= 0: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 


@ 有 注解 的 函数 声明 。 

函数 声明 中 的 各 个 参数 可 以 在 : 之 后 增加 注解 表达 式 。 如 果 参 数 有 默认 值 ， 注 解放 在 参数 
名 和 = 号 之 间 。 如 果 想 注解 返回 值 ， 在 ) 和 函数 声明 末尾 的 : 之 间 添加 -> 和 一 个 表达 式 。 
那个 表达 式 可 以 是 任何 类 型 。 注 解 中 最 常用 的 类 型 是 类 (如 str 或 int) 和 字符 串 (如 
tint > 9')。 在 示例 5-19 中 ，max_len 参数 的 注解 用 的 是 字符 串 。 
注解 不 会 做 任何 处 理 ， 只 是 存储 在 函数 的 _annotations “属性 (一 个 字典 ) H: 


>>> from clip_annot import clip 
>>> clip.__annotations__ 
{'text': <class 'str'>, 'max_len': ‘int > 0', 'return': <class 'str'>} 
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‘return’ 键 保存 的 是 返回 值 注解 ， 即 示例 5-19 中 函数 声明 里 以 -> 标记 的 部 分 


Python 对 注解 所 做 的 唯一 的 事情 是 ， 把 它们 存储 在 函数 的 _annotations “属性 里 。 仅 
此 而 已 ，Python 不 做 检查 、 不 做 强制 、 不 做 验证 ， 什 么 操作 都 不 做 。 换 句 话 说， 注解 对 
Python 解释 器 没有 任何 意义 。 注 解 只 是 元 数据 ， 可 以 供 IDE、 框 架 和 装饰 器 等 工具 使 用 。 
写作 本 书 时 ， 标 准 库 中 还 没有 什么 会 用 到 这 些 元 数据 ， 唯 有 inspect.signature() 国 数 知 
道 怎 么 提取 注解 ， 如 示例 5-20 所 示 。 


示例 5-20 ”从 函数 签名 中 提取 注解 
>>> from clip_annot import clip 
>>> from inspect import signature 
>>> sig = signature(clip) 
>>> sig.return_annotation 
<class 'str'> 
>>> for param in sig.parameters.values(): 
note = repr(param.annotation).ljust(13) 









































vent print(note, ':', param.name, '=', param.default) 
<class 'str'> : text = <class 'inspect._empty'> 
‘int > 0' : max_len = 80 





signature px #4 jk [a] — 74+ Signature 对 象 ， 它 有 一 个 return_annotation 属性 和 一 
parameters 属性， 后 者 是 一 个 字典 ， 把 参数 名 映射 到 Parameter 对 象 上 。 每 个 Parameter 
对 象 自己 也 有 annotation 属性 。 示 例 5-20 用 到 了 这 几 个 属性 。 

在 未 来 ，Bobo 等 框架 可 以 支持 注解 ， 并 进一步 自动 处 理 请 求 。 例 如 ， 使 用 price:float 广 
解 的 参数 可 以 自动 把 查询 字符 串 转 换 成 函数 期 待 的 Float 类 型 ，quantity:'int > 0' 这 样 
的 字符 串 注解 可 以 转换 成 对 参数 的 验证 。 

函数 注解 的 最 大 影响 或 许 不 是 让 Bobo 等 框架 自动 设置 ， 而 是 为 IDE 和 lint 程序 等 工具 中 
的 静态 类 型 检查 功能 提供 额外 的 类 型 信息 。 


入 分 析 函 数 之 后 ， 本 章 余下 的 内 容 介 绍 标准 库 中 为 函数 式 编程 提供 支持 的 常用 包 。 


5.10 ”支持 函数 式 编程 的 包 


虽然 Guido 明确 表明 ，Python 的 目标 不 是 变 成 函数 式 编程 语言 ， 但 是 得 益 于 operator 和 
functools 等 包 的 支持 ， 且 数 式 编 程 风 格 也 可 以 信 手 持 来 。 接 下 来 的 两 节 分 别 介 绍 这 两 个 包 。 














ys 

















5.10.1 operator# air 

在 函数 式 编程 中 ， 经 常 需要 把 算术 运算 符 当 作 函 数 使 用 。 例 如 ， 不 使 用 递归 计算 阶乘 。 求 
和 可 以 使 用 sum 函数 ， 但 是 求 积 则 没有 这 样 的 函数 。 我 们 可 以 使 用 reduce 函数 (5.2.1 
节 是 这 么 做 的 )， 但 是 需要 一 个 函数 计算 序列 中 两 个 元 素 之 积 。 示 例 5-21 展示 如 何 使 用 
Lambda 表达 式 解决 这 个 问题 。 


示例 5-21 使 用 reduce 函数 和 一 个 匿名 函数 计算 阶乘 


from functools import reduce 








def fact(n): 
return reduce(lambda a, b: a*b, range(1, n+1)) 


operator 模块 为 多 个 算术 运算 符 提供 了 对 应 的 函数 ， 从 而 避免 编写 lambda a, 
平 几 的 匿名 函数 。 使 用 算术 运算 符 函 数 ， 可 以 把 示例 5-21 改写 成 示例 5-22 那样 。 


示例 5-22 使 用 reduce 和 operator.mul 函数 计算 阶乘 


from functools import reduce 
from operator import mul 


def fact(n): 
return reduce(mul, range(1, n+1)) 





b: a*b 这 种 





operator 模块 中 还 有 一 类 函数 ， 能 替代 从 序列 中 取出 元 素 或 读 取 对 象 属性 的 Lambda 表达 





式 : 因此 ，itemgetter 和 attrgetter 其 实 会 自行 构建 函数 。 





示例 5-23 展示 了 | 根据 元 组 的 某 个 字段 给 元 组 列表 排序 。 在 这 个 示 
例 中 ， 按 照 国家 代码 (第 2 个 字段 ) 的 顺序 打印 各 个 城市 的 信息 。 其 实 ，itemgetter(1) 的 
作用 与 lambda fields: 创建 一 个 接受 集合 的 函数 ， 返 回 索引 位 1 上 的 元 








示例 5-23 ”演示 使 用 itemgetter 排序 一 个 元 组 列表 (数据 来 自 示 例 2-8) 


>>> metro_data = [ 

('Tokyo', 'JP', 36.933, (35.689722, 139.691667)), 

('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
(‘Mexico City', 'MX', 20.142, (19.433333, -99.133333)), 
('New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 
re ('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)), 

.] 
>>> 
>>> from operator import itemgetter 
>>> for city in sorted(metro_data, key=itemgetter(1)): 

print(city) 


('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)) 
(‘Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)) 
('Tokyo', 'JP', 36.933, (35.689722, 139.691667)) 

('Mexico City', 'MX', 20.142, (19.433333, -99.133333)) 
('New York-Newark', 'US', 20.104, (40.808611, -74.020386)) 


如 有 果 把 多 个 参数 传 给 itemgetter， 它 构建 的 函数 会 返回 提取 的 值 构 成 的 元 组 : 


>>> CC_name = itemgetter(1, 0) 
>>> for city in metro_data: 
print(cc_name(city) ) 


('JP', 'Tokyo') 

('IN', ‘Delhi NCR') 
('MX', ‘Mexico City') 
('US', 'New York-Newark' ) 
('BR', 'Sao Paulo') 

>>> 
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itemgetter 使 用 [] 运算 符 ， 因 此 它 不 仅 支 持 序列 ， 还 支持 映射 和 任何 实现 _getitem_ 方 
法 的 类 。 


attrgetter 与 itemgetter 作用 类 似 ， 它 创建 的 函数 根据 名 称 提取 对 象 的 属性 。 如 果 把 
多 个 属性 名 传 给 attrgetter， 它 也 会 返回 提取 的 值 构 成 的 元 组 。 此 外 ， 如 果 参 数 名 中 包 
含 ，( 点 号 )，attrgetter 会 深入 嵌 套 对 象 ， 获 取 指 定 的 属性 。 这 些 行 为 如 示例 5-24 所 示 。 
这 个 控制 台 会 话 不 得 ， 因 为 我 们 要 构建 一 个 艇 套 结构 ， 这 样 才能 展示 attrgetter 如 何 处 理 
包含 点 号 的 属性 名 。 


示例 5-24 定义 一 个 namedtuple， 名 为 metro_data (与 示例 5-23 中 的 列表 相同 ) ， 演 示 使 
用 attrgetter 处 理 它 


>>> from collections import namedtuple 

>>> LatLong = namedtuple('LatLong', 'lat long') # © 

>>> Metropolis = namedtuple('Metropolis', 'name cc pop coord') #@ 

>>> metro_areas = [Metropolis(name, cc, pop, LatLong(lat, long)) # © 
for name, cc, pop, (lat, long) in metro_data] 

>>> metro_areas[0] 

Metropolis(name='Tokyo', cc='JP', pop=36.933, coord=LatLong(lat=35.689722, 

long=139.691667)) 

>>> metro_areas[0].coord.lat #@ 

35.689722 

>>> from operator import attrgetter 

>>> name_lat = attrgetter('name', ‘coord.lat') #@ 

>>> 

>>> for city in sorted(metro_areas, key=attrgetter('coord.lat')): #@ 
print(name_lat(city)) # @ 























('Sao Paulo', -23.547778) 
('Mexico City', 19.433333) 
("Delhi NCR', 28.613889) 
('Tokyo', 35.689722) 

('New York-Newark', 40.808611) 


@ 使 用 namedtuple 定义 LatLong, 

@ 再 定义 Metropolis, 

© 使 用 Metropolis 实例 构建 metro_areas 列表 ;， HEM, REH i E H cA Ate 
(Lat，Long)， 然 后 使 用 它们 构建 LatLong， 作 为 Metropolis 的 coord 属性 。 

O 深入 metro_areas[0]， 获 取 它 的 纬度 。 

© 定义 一 个 attrgetter， 获 取 name REFIR EH coord. lat 属 

© 再 次 使 用 attrgetter， 按 照 纬 度 排序 城市 列表 。 

O 使 用 标号 @ 中 定义 的 attrgetter， 只 显示 城市 名 和 纬度 。 


下 面 是 operator 模块 中 定义 的 部 分 函数 (省略 了 以 _ 开头 的 名 称 ， 因 为 它们 基本 上 是 实现 
细节 ) :“ 


>>> [name for name in dir(operator) if not name.startswith('_')] 
['abs', 'add', 'and_', 'attrgetter', 'concat', 'contains', 


性 。 



































注 4: Python 3.5 中 增加 了 imatmul 和 matmul。 一 一 编者 注 





AR 
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"countof ' 'delitem', 'eq', 'floordiv', 'ge', 'getitem', 'gt', 
"iadd' nana "iconcat', ‘ifloordiv', 'ilshift', 'imod', ‘imul', 
index" » ‘indexOf', 'inv', 'invert', ‘ior', 'ipow', ‘irshift', 
‘is_', 'is not', 'tsub', ‘itemgetter', 'itruediv', 'ixor', 'le', 
"Length_hint', 'lshift', 'lt', 'methodcaller', 'mod', 'mul', 'ne' 
'neg', 'not_', 'or_', 'pos', 'pow', 'rshift', 'setitem', 'sub', 
"truediv', 'truth', 'xor'] 


这 52 个 名 称 中 大 部 分 的 作用 不 言 而 喻 。 以 i 开头、 后 面 是 另 一 个 运算 符 的 那些 名 称 (如 


iadd、iand 等 )， 对 应 的 是 增 量 赋值 运算 符 (如 二 、&= 等 )。 如 果 第 一 个 参数 是 可 变 的 ， 那 
么 这 些 运算 符 函 数 会 就 地 修改 它 ， 否 则 ， 作 用 与 不 带 的 函数 一 样 ， 直 接 返 回 运算 结果 。 


在 operator 模块 余下 的 函数 中 ， 我 们 最 后 介绍 一 下 methodcaller。 它 的 作用 与 attrgetter 
和 itemgetter 类 似 ， 它 会 自行 创建 函数 。methodcaller 创建 的 函数 会 在 对 象 上 调用 参数 指 
定 的 方法 ， 如 示例 5-25 所 示 。 


> 



































示例 5-25 methodcaller 使 用 示例 : 第 二 个 测试 展示 绑 定额 外 参数 的 方式 
>>> from operator import methodcaller 
>>> s = 'The time has come' 
>>> upcase = methodcaller('upper' ) 
>>> upcase(s) 
"THE TIME HAS COME' 
>>> hiphenate = methodcaller('replace', ' ', '-') 
>>> hiphenate(s) 
'The-time-has-come' 


示例 5-25 中 的 第 一 个 测试 只 是 为 了 展示 methodcaller 的 用 法 ， 如 果 想 把 str.upper 作为 图 
数 使 用 ， 只 需 在 str 类 上 调用 ， 并 传人 一 个 字符 串 参 数 ， 如 下 所 示 : 


>>> str.upper(s) 
"THE TIME HAS COME' 


示例 5-25 中 的 第 二 个 测试 表明 ，methodcaller 还 可 以 冻结 某 些 参数 ， 也 就 是 部 分 应 用 
(partial application) ， 这 与 functools.partial 国 数 的 作用 类 似 。 详 情 参 见 下 一 节 。 





























5.10.2 使 用 functools .partial 冻 结 参 数 


functools 模块 提供 了 一 系列 高 阶 函 数 ， 其 中 最 为 人 熟知 的 或 许 是 reduce， 我 们 在 5.2.1 节 
已 经 介绍 过 。 余 下 的 函数 中 ， 最 有 用 的 是 partial 及 其 变 体 ，partialmethod。 


functools.partial 这 个 高 阶 函 数 用 于 部 分 应 用 一 个 函数 。 部 分 应 用 是 指 ， 基 于 一 个 函数 创 
建 一 个 新 的 可 调用 对 象 ， 把 原 函 数 的 某 些 参数 固定 。 使 用 这 个 函数 可 以 把 接受 一 个 或 多 个 
参数 的 函数 改编 成 需要 回调 的 API， 这 样 参数 更 少 。 示 例 5-26 做 了 简单 的 演示 。 


示例 5-26 使 用 partial 把 一 个 两 参数 函数 改编 成 需要 单 参数 的 可 调用 对 象 
>>> from operator import mul 
>>> from functools import partial 
>>> triple = partial(mul, 3) @ 
>>> triple(7) @ 


























21 
>>> list(map(triple, range(1, 10))) © 
[3, 6, 9, 12, 15, 18, 21, 24, 27] 





© 使 用 mul 创建 triple 函数 ， 把 第 一 个 定位 参数 定 为 3. 

@ 测试 triple 函数 。 

© 在 map 中 使 用 triple, 在 这 个 示例 中 不 能 使 用 mul, 

使 用 4.6 节 介 绍 的 unicode.normalize 函数 再 举 个 例子 ， 这 个 示例 更 有 实际 意义 。 如 果 处 理 








多 国 























语言 编写 的 文本 ， 在 比较 或 排序 之 前 可 能 会 想 使 用 unicode.normalize('NFC', s) 处 理 


所 有 字符 串 s。 如 果 经 常 这 么 做 ， 可 以 定义 一 个 nfe 函数 ， 如 示例 5-27 所 示 。 
示例 5-27 使 用 partial 构建 一 个 便利 的 Unicode 规范 化 函数 


>>> import unicodedata, functools 

>>> nfc = functools.partial(unicodedata.normalize, 'NFC') 
>>> s1 "café' 

>>> s2 = 'cafe\u0301' 

>>> s1, s2 

('café', 'café') 


>>> si == s2 

False 

>>> nfc(s1) == nfc(s2) 
True 


partial 的 第 一 个 参数 是 一 个 可 调用 对 象 ， 后 面 跟着 任意 个 要 绑 定 的 定位 参数 和 关键 字 参 数 。 


示例 5-28 在 示例 5-10 中 定义 的 tag 函数 上 使 用 partial， 冻 结 一 个 定位 参数 和 一 个 关键 字 
参数 。 


示例 5-28 把 partial 应 用 到 示例 5-10 中 定义 的 tag 函数 上 





>>> from tagger import tag 

>>> tag 

<function tag at 0x10206dle0> @ 

>>> from functools import partial 

>>> picture = partial(tag, 'img', cls='pic-frame') @ 
>>> picture(src='wumpus. jpeg') 

‘<img class="pic-frame" src="wumpus. jpeg" />' © 

>>> picture 

functools.partial(<function tag at 0x10206d1e0>, 'img', cls='pic-frame') @ 
>>> picture.func © 

<function tag at 0x10206d1e0> 

>>> picture.args 

( img ，) 

>>> picture.keywords 

{'cls': 'pic-frame'} 


O 从 示例 5-10 中 导入 tag HR, AGEN ID. 


© 使 用 tag 创建 picture 函数 ， 把 第 一 个 定位 参数 固定 为 'img' ,把 cls 关键 字 参 数 





Ey 
al 














为 'pic-frame'。 
© picture 的 行为 符合 预期 。 





© partial() 返回 一 个 functools.partial HR, ° 
© functools.partial 对 象 提供 了 访问 原 函数 和 固定 参数 的 属性 。 


functools.partialmethod 国 数 (Python 3.4 新 增 ) 的 作用 与 partial 一 样 ， 不 过 是 用 于 处 
理 方 法 的 。 

functools 模块 中 的 Lru_cache 函数 令 人 印象 深刻 ， 它 会 做 备 忘 (memoization) ， 这 是 一 种 
自动 优化 措施 ， 它 会 存储 耗 时 的 函数 调用 结果 ， 避 免 重 新 计算 。 第 7 章 将 会 介绍 这 个 函 
数 ， 还 将 讨论 装饰 器 ， 以 及 旨 在 用 作 装 饰 器 的 其 他 高 阶 函 数 : singledispatch 和 wraps。 


5.11 本 章 小 结 


本 章 的 目标 是 探讨 Python 函数 的 一 等 本 性 。 这 意味 着 ， 我 们 可 以 把 函数 赋值 给 变量 、 传 给 
其 他 函数 、 存 储 在 数据 结构 中 ， 以 及 访问 函数 的 属性 ， 供 框架 和 一 些 工具 使 用 。 高 阶 函数 
是 函数 式 编程 的 重要 组 成 部 分 ， 即 使 现在 不 像 以 前 那样 经 常 使 用 map、filter 和 reduce p 
数 了 ,但 是 还 有 列表 推导 (以 及 类 似 的 结构 ， 如 生成 器 表达 式 ) 以 及 sum, all 和 any 等 
内 置 的 归 约 函数 。Python 中 常用 的 高 阶 函 数 有 内 置 函 数 sorted, min, max 和 functools. 


partial, 


Python Æ 7 种 可 调用 对 象 ， 从 Lambda 表达 式 创 建 的 简单 函数 到 实现 O call 方法 的 类 实 
例 。 这 些 可 调用 对 象 都 能 通过 内 置 的 callable() 国 数 检 测 。 每 一 种 可 调用 对 象 都 支持 使 用 
相同 的 丰富 句法 声明 形式 参数 ， 包 括 仅 限 关键 字 参 数 和 注解 一 一 二 者 都 是 Python 3 引入 的 
新 特性 。 
Python 函数 及 其 注解 有 丰富 的 属性 ， 在 inspect 模块 的 帮助 下 ， 可 以 读 取 它 们 。 例 如 ， 
Signature.bind 方法 使 用 灵活 的 规则 把 实 参 绑 定 到 形 参 上 ， 这 与 Python 使 用 的 规则 一 样 。 
最 后 ， 本 章 介绍 了 operator 模块 中 的 一 些 函 数 ， 以 及 functools.partial 函数 ， 有 了 这 些 
函数 ， 函 数 式 编程 就 不 太 需 要 功能 有 限 的 Lambda 表达 式 了。 


5.12 延伸 阅读 


接 下 来 的 两 章 继续 探讨 使 用 函数 对 象 编 程 。 第 6 章 说 明 一 等 国 数 如 何 简化 某 些 经 典 的 面向 
对 象 设 计 模式 ， 第 7 章 说 明 函 数 装 饰 器 (一 种 特别 的 高 阶 函数 ) 和 支持 装饰 器 的 闭 包机 制 。 
«Python Cookbook (第 3 fk) 中 文 版 》(David Beazley 和 Brian K. Jones 著 ) 的 第 7 章 是 对 
本 章 和 第 7 章 很 好 的 补充 ， 那 一 章 基 本 上 使 用 不 同 的 方式 探讨 了 相同 的 概念 。 

Python 语言 参考 手册 中 的 “3.2. The standard type hierarchy” 一 节 (https://docs.python.org/3/ 
reference/datamodel.html#the-standard-type-hierarchy) 对 7 种 可 调用 类 型 和 其 他 所 有 内 置 类 
型 做 了 介绍 。 








































































































注 5: functools.py 的 源码 (https://hg.python.org/cpython/file/default/Lib/functools.py) 表明 ，functools.partial 
类 是 使 用 C 语言 实现 的 ， 而 且 默 认 使 用 这 个 实现 。 如 果 这 个 实现 不 可 用 ， 从 Python 3.4 起 ，functools 
模块 为 partial 提供 了 纯 Python 实现 。 
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本 章 讨论 的 Python 3 专 有 特性 有 各 自 的 PEP:“PEP 3102—Keyword-Only Arguments” 
(https://www.python.org/dev/peps/pep-3102/) 和 “PEP 3107 一 Function Annotations” (https:// 
www.python.org/dev/peps/pep-3107/) 。 


若 想 进一步 了 解 目前 对 广 解 的 使 用 ，Stack Overflow 网 站 中 有 两 个 问答 值得 一 读 : 一 个 
是 “What are good uses for Python3’s “Function Annotations’” (http://stackoverflow.com/ 




















questions/3038033/what-are-good-uses-for-python3s-function-annotations ), Raymond Hettinger 
给 出 了 务实 的 回答 和 深入 的 见解 ， 另 一 个 是 “What good are Python function annotations?” 
(http://stackoverflow.com/questions/137847 13/what-good-are-python-function-annotations), +E 
个 回答 中 大 量 引 用 了 Guido van Rossum 的 观点 。 


如 果 你 想 使 用 inspect 模块 , “PEP 362—Function Signature Object” (https://www.python. 
org/dev/peps/pep-0362/) 值得 一 读 ， 可 以 帮助 了 解 实现 细节 。 


A. M. Kuchling 的 文章 “Python Functional Programming HOWTO” (http://docs.python.org/3/ 
howto/functional.html) 对 Python 函数 式 编 程 做 了 很 好 的 介绍 。 不 过 ， 那 篇 文章 的 重点 是 使 
用 友 代 器 和 生成 器 ， 这 是 第 14 章 的 话题 。 

fn.py (https://github.com/kachayev/fn.py) 是 为 Python 2 和 了 Python 3 提供 函数 式 编程 支持 的 
包 。 据 作者 Alexey Kachayev 介绍 ，fn.py 提供 了 Python“ 所 缺少 的 国 数 式 特性 ”。 这 个 包 
提供 的 erecur.tco 装饰 器 为 Python 中 的 无 限 递 归 实 现 了 尾 调用 优化 。 此 外 ，fn.py 还 提供 
了 很 多 其 他 函数 、 数 据 结构 和 诀窍 。 

Stack Overflow 网 站 中 的 问题 “Python: Why is functools.partial necessary?” (http://stackoverflow. 
com/questions/3252228/python-why-is-functools-partial-necessary) 有 个 详实 (而 有 趣 ) 的 回答 ， 
答 主 是 Alex Martelli， 他 是 经 典 的 《Python 技术 手册 》 一 书 的 作者 。 


Jim Fulton 开发 的 Bobo 或 许 是 第 一 个 称 得 上 是 面向 对 象 的 Web 框架。 如果 你 对 这 个 框架 
感 兴趣 ， 想 进一步 学 习 它 最 近 的 重 写 版 本 ， 先 从 “Introduction” (http://bobo.readthedocs.io/ 
en/latest/) 入 手 。 在 Joel Spolsky 的 博客 中 ，Phillip J. Eby 在 评论 中 提 到 了 Bobo 的 一 些 早 
期 历史 (http://discuss.fogcreek.com/joelonsoftware/default.asp?cmd=show&ixPost=94006) 。 
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关于 Bobo 


我 的 Python 编程 生涯 从 Bobo 开始 。1998 年 ， 我 在 自己 的 第 一 个 Python Web 项 目 中 
使 用 了 Bobo。 当 时 我 在 寻找 编写 Web 应 用 的 面向 对 象 方式 ， 尝 试 过 一 些 Perl 和 Java 
框架 之 后 ， 我 发 现 了 Bobo, 


1997 年 ，Bobo 开创 了 对 象 发 布 概念 : 直接 把 URL 映射 到 对 象 层 次 结构 上 上， 无需 配置 
路 由 。 看 到 这 种 做 法 的 精妙 之 处 后 ， 我 被 Bobo 吸引 住 了 。Bobo 还 能 通过 分 析 处 理 请 
求 的 方法 或 函数 的 签名 来 自动 处 理 HTTP 查询 。 














Bobo 由 Jim Fulton 创建 ， 他 被 人 称 为 “Zope HZ” (The Zope Pope) ， 因 为 他 在 Zope 
框架 的 开发 中 的 起 到 领衔 作用 。Zope 是 Plone CMS, SchoolTool, ERPS 和 其 他 大 型 
Python 项 目的 基础 。Jim 还 是 ZODB (Zope Object Database) 的 创建 者 ， 这 是 一 个 事 
务 型 对 象 数据 库 ， 提 供 了 ACID (“atomicity, consistency, isolation, and durability”"， 原 
子 性 、 一 臻 性、 隔离 性 和 耐久 性 ) ， 它 的 设计 目的 是 简化 Python 的 使 用 。 


后 来 ,为 了 支持 WSGI 和 现代 的 Python 版 本 (包括 Python 3), Jim 从 头 重 写 了 Bobo, 
写作 本 书 时 ，Bobo 使 用 six Bh AAA, ZAA T ŽA Python 2 Fe Python 3, AA 
这 两 个 版 本 在 函数 对 象 和 相关 的 API 上 做 了 修改 。 


Python 是 函数 式 语 言 吗 


2000 年 左右 ， 我 在 美国 做 培训 ，Guido van Rossum 到 访 了 教室 (他 不 是 讲师 )。 在 
课 后 的 问答 环节 ， 有 人 问 他 Python 的 哪些 特性 是 从 其 他 语言 借鉴 而 来 的 。 他 答 道 : 
“Python 中 一 切 好 的 特性 部 是 从 其 他 语言 中 借鉴 来 的 。” 


布朗 大 学 的 计算 机 科学 教授 Shriram Krishnamurthi 在 其 论文 “Teaching Programming 
Languages in a Post-Linnaean Age” (http://cs.brown.edu/~sk/Publications/Papers/Published/ 
sk-teach-pl-post-linnaean/) 的 开头 这 样 写 道 : 


编程 语言 “范式 ”已 近 末 日 ， 它 们 是 旧时 代 的 遗留 物 ， 令 人 厌烦 。 了 既然 现代 语言 
的 设计 者 对 范式 不 屑 一 顾 ， 那 么 我 们 的 课程 为 什么 要 像 奴 隶 一 样 对 其 言 听 计 从 ? 


在 那 篇 论文 中 ， 下 面 这 一 段 点 名 提 到 了 Python: 


对 Python, Ruby 或 Perl 这 些 语 言 还 要 了 解 什么 呢 ? 它们 的 设计 者 没有 耐心 去 精 
确实 现 林 奈 层次 结构 ; 设计 者 按照 自己 的 意愿 从 别处 借鉴 特性 ， 创 建 出 完全 无 
视 过 往 概念 的 大 杂烩 。 


Krishnamurthi 指出 ， 不 要 试图 把 语言 归 为 某 一 类 ; 相反 ， 把 它们 视 作 特性 的 聚合 更 有 用 。 


为 Python 提供 一 等 函数 打开 了 函数 式 编程 的 大 门 ， 不 过 这 并 不 是 Guido 的 目的 。 他 在 
“Origins of Python’s Functional Features” 一 文 (http://python-history.blogspot.com/2009/04/ 
origins-of-pythons-functional-features.html) 中 说 ，map、filter 和 reduce 的 最 初 目的 是 
为 Python 增加 Lambda 表达 式 。 这 些 特性 都 由 Anmrit Prem 贡献 ， 添 加 在 1994 年 发 布 
的 Python 1.0 中 (参见 CPython 源码 中 的 Misc/HISTORY 文件 ，https://hg.python.org/ 
cpython/file/default/Misc/HISTORY ) 。 


lambda, map, filter 和 reduce 首次 出 现在 Lisp 中 ， 这 是 最 早 的 一 门 函数 式 语 言 。 然 
而 ，Lisp 没有 限制 在 Lambda 表达 式 中 能 做 什么 ， A Lisp 中 的 一 切 都 是 表达 式 。 
Python 使 用 的 是 面向 语 向 的 向 法 ， 表 达 式 中 不 能 包含 语 向， 而 很 多 语言 结构 都 是 语 向 ， 
例如 try/catch， 我 编写 lambda 表达 式 时 最 想念 这 个 语句 。Python 为 了 提高 铅 法 的 可 
读 性 ， 必 须 付 出 这 样 的 代价 。 "Lisp 有 很 多 优点 ， 可 读 性 一 定 不 是 其 中 之 一 。 
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E6: 此 外 ， 还 有 一 个 问题 : 把 代码 粘贴 到 Web 论坛 时 ， 缩 进 会 丢失 。 当 然 ， 这 是 题 外 话 。 
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讽刺 的 是 ， 从 另 一 门 函数 式 语言 (Haskell) 中 借用 列表 推导 之 后 ，Python 对 map, 
fiLter， 以 及 lambda 表达 式 的 需求 极 大 地 减少 了 。 


除了 匿名 坊 数 铅 法 上 的 限制 之 外 ， 影 响 函 数 式 编程 惯用 法 在 Python 中 广泛 使 用 的 最 大 
障碍 是 缺少 尾 递归 消除 (tail-recursion elimination) ， 这 是 一 项 优化 措施 ， 在 函数 的 定义 体 
“末尾 ”递归 调用 ， 从 而 提高 计算 函数 的 内 存 使 用 效率 。Guido 在 另 一 篇 博客 文章 (“Tail 
Recursion Elimination”，http:/neopythonic.blogspotcom/2009/04/tail-recursion-elimination.html) 

中 解释 了 为 什么 这 种 优化 措施 不 适合 Python。 这 篇 文章 详细 讨论 了 技术 论证 ， 不 过 前 

三 个 也 是 最 重要 的 原因 与 易 用 性 有 关 。Python 作为 一 门 易于 使 有 用、 学习 和 教授 的 语言 

并 非 偶然 ， 有 Guido 在 为 我 们 把 关 。 


综 上 ， 从 设计 上 看 ， 不 管 函 数 式 语言 的 定义 如 何 ，Python RRA- AKAAERE, 
Python 只 是 从 有 函数 式 语言 中 借鉴 了 一 些 好 的 想法 。 


匿名 函数 的 问题 


除了 Python 独 有 的 向 法 上 的 局 限 ， 在 任何 一 门 语言 中 ， 匿 名 池 数 都 有 一 个 严重 的 缺 
点 : 没有 名 称 。 


我 是 半 开 玩笑 的 。 函 数 有 名 称 ， 栈 跟踪 更 易于 阅读 。 匿 名 函数 是 一 种 便利 的 简洁 方式 ， 
人 们 乐于 使 用 它们 ， 但 是 有 时 会 忘乎所以 ， 尤 其 是 在 鼓励 深层 风 套 匿名 函数 的 语言 和 
环境 中 ， 如 JavaScript 和 Node.js。 匿 名 喜 数 嵌 套 的 层级 太 深 ， 不 利于 调试 和 处 理 错 误 。 

Python 中 的 异步 编程 结构 更 好 ， 或 许 就 是 因为 lambda 表达 式 有 局 限 。 我 保证 ， 后 面 会 

进一步 讨论 异步 编程 ， 但 是 必须 等 到 第 18 章 。 顺 便 说 一 下 ，promise 4 #, future 对 

$ fo deferred 对 象 是 现代 异步 API 中 使 用 的 概念 。 把 它们 与 协 程 结合 起 来 ， 能 避免 掉 

入 “回调 地 狱 ”。18.5 节 会 说 明 如 何不 用 回调 来 做 异步 编程 。 


a 











第 6 章 


使 用 一 等 函数 实现 设计 模式 





符合 模式 并 不 表示 做 得 对 。! 





Ralph Johnson 
经 典 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 之 一 


虽然 设计 模式 与 语言 无 关 ， 但 这 并 不 意味 着 每 一 个 模式 都 能 在 每 一 门 语言 中 使 用 。1996 
年 ，Peter Norvig 在 题 为 “Design Patterns in Dynamic Languages” (http://norvig.com/design- 
patterns/) 的 演讲 中 指出 , Gamma 等 人 合 著 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 
书 中 有 23 个 模式 ， 其 中 有 16 个 在 动态 语言 中 “不 见 了 ,或 者 简化 了 ”( 参 见 第 9 张 幻 灯 
片 )。 他 讨论 的 是 Lisp 和 Dylan， 不 过 很 多 相关 的 动态 特性 在 Python 中 也 能 找到 。 


《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 的 作者 在 引言 中 承认 ， 所 用 的 语言 决定 了 哪些 
模式 可 用 : 
程序 设计 语言 的 选择 非常 重要 ， 它 将 影响 人 们 理解 问题 的 出 发 点 。 我 们 的 设计 模式 
采用 了 Smalltalk 和 C++ 层 的 语言 特性 ， 这 个 选择 实际 上 决定 了 哪些 机 制 可 以 方便 地 
实现 ， 而 哪些 则 不 能 。 若 我 们 采用 过 程式 语言 ， 可 能 就 要 包括 诸如 “继承 ” 封装 ” 
和 “多 态 ” 的 设计 模式 。 相 应 地 ， 一 些 特 殊 的 面向 对 象 语言 可 以 直接 支持 我 们 的 某 
些 模式 ， 例 如 CLOS 支持 多 方法 概念 ， 这 就 减少 了 访问 者 模式 的 必要 性 。 
具体 而 言 ，Norvig 建议 在 有 一 等 函数 的 语言 中 重新 审视 “策略 “命令”“ 模 板 方法 ”和 
“访问 者 ”模式 。 通 常 ， 我 们 可 以 把 这 些 模式 中 涉及 的 某 些 类 的 实例 替换 成 简单 的 函数 ， 
从 而 减少 样板 代码 。 本 章 将 使 用 国 数 对 象 重 构 “ 策 略 ” 模 式 ， 还 将 讨论 一 种 更 简单 的 方 






































注 1: 出 自 2014 年 11 月 15 H Ralph Johnson 在 圣保罗 大 学 IME/CCSL 所 做 的 演讲 ， “Root Cause Analysis of 
Some Faults in Design Patterns” , 


注 2:《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 第 3 页 。 
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式 ， 用 于 简化 “命令 ”模式 。 


6.1 案例 分 析 : EH “RHR” ext 


如 果 合 理 利 用 作为 一 等 对 象 的 函数 ， 某 些 设 计 模 式 可 以 简化 ,“ 策 略 ”模式 就 是 其 中 一 个 
很 好 的 例子 。 本 节 接 下 来 的 内 容 中 将 说 明 “ 策 略 ”模式 ， 并 使 用 《设计 模式 : 可 复 用 面向 
对 象 软件 的 基础 》 一 书 中 所 述 的 “经 典 ” 结 构 实现 它 。 如 果 你 熟悉 这 个 经 典 模式 ， 可 以 跳 
到 6.1.2 节 ， 了 解 如 何 使 用 国 数 重 构 代 码 来 有 效 减 少 代码 行 数 。 


6.1.1 经 典 的 “策略 ”模式 


图 6-1 中 的 UML 类 图 指出 了 “策略 ”模式 对 类 的 编排 。 
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图 6-1: 使 用 “策略 ”设计 模式 处 理 订单 折扣 的 UML 类 图 
《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 是 这 样 概述 “策略 ”模式 的 : 
定义 一 系列 算法 ， 把 它们 一 一 封装 起 来 ， 并 且 使 它们 可 以 相互 蔡 的。 本 模式 使 得 算 
法 可 以 独立 于 使 用 它 的 客户 而 变化 。 
电 商 领域 有 个 功能 明显 可 以 使 用 “策略 ”模式 ， 即 根据 客户 的 属性 或 订单 中 的 商品 计算 折扣 。 
假如 一 个 网 店 制定 了 下 述 折扣 规则 。 


。 有 1000 或 以 上 积分 的 顾客 ， 每 个 订单 享 5% 折扣 。 
。 同一 订单 中 ， 单 个 商品 的 数量 达到 20 个 或 以 上 ， 享 10% 折扣 。 























。 订单 中 的 不 同 商品 达到 10 个 或 以 上 ， 享 7% 折扣 。 

简单 起 见 ， 我 们 假定 一 个 订单 一 次 只 能 享用 一 个 折扣 。 

“策略 ”模式 的 UML 类 图 见 图 6-1， 其 中 涉及 下 列 内 容 。 

上 下 文 
把 一 些 计 算 委 托 给 实现 不 同 算法 的 可 互 换 组 件 ， 它 提供 服务 。 在 这 个 电 商 示例 中 ， 上 下 
文 是 order， 它 会 根据 不 同 的 算法 计算 促销 折扣 。 

策略 


实现 不 同 算法 的 组 件 共 同 的 接口 。 在 这 个 示例 中 ， 名 为 Promotion 的 抽象 类 扮演 这 个 角 
色 。 
具体 策略 
“策略 ”的 具体 子 类 。fidelityPromo、BulkPromo 和 LargeOrderPromo 是 这 里 实现 的 三 个 
具体 策略 。 
示例 6-1 实现 了 图 6-1 中 的 方案 。 按 照 《 设 计 模 式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 
说 明 ， 有 具体 策略 由 上 下 文 类 的 客户 选择 。 在 这 个 示例 中 ， 实 例 化 订单 之 前 ， 系 统 会 以 某 种 
方式 选择 一 种 促销 折扣 策略 ， 然 后 把 它 传 给 Order 构造 方法 。 有 具体 怎么 选择 策略 ， 不 在 这 
个 模式 的 职责 范围 内 。 


示例 6-1 实现 Order 类 ， 支 持 插 入 式 折扣 策略 
from abc import ABC, abstractmethod 
from collections import namedtuple 









































Customer = namedtuple('Customer', 'name fidelity') 


class LineItem: 


def _ init__(self, product, quantity, price): 
self.product = product 
self.quantity = quantity 
self.price = price 


def total(self): 
return self.price * self.quantity 


class Order: # 上 下 文 


def __ init__(self, customer, cart, promotion=None): 
self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, '__total'): 
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self.__total = sum(item.total() for item in self.cart) 
return self.__ total 


def due(self): 
if self.promotion is None: 
discount = 0 
else: 
discount = self.promotion.discount(self) 
return self.total() - discount 


def _ repr__(self): 
fmt = '<Order total: {:.2f} due: {:.2f}>' 
return fmt.format(self.total(), self.due()) 





class Promotion(ABC): # 策略 :抽象 基 类 


@abstractmethod 
def discount(self, order): 


""”" 返 回 折扣 金额 ( 正 值 ) "" 








class FidelityPromo(Promotion): # 第 一 个 具体 策略 
"为 积分 为 1 或 以 上 的 顾客 提供 5% 折 扣 "”" 


def discount(self, order): 
return order.total() * .05 if order.customer.fidelity >= 1000 else 0 


class BulkItemPromo(Promotion): # 第 二 个 具体 策略 
""" 单 个 商品 为 20 个 或 以 上 时 提供 16% 折 扣 """ 


def discount(self, order): 
discount = 0 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 











class LargeOrderPromo(Promotion): # 第 三 个 具体 策略 
""" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 








def discount(self, order): 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return 0 


注意 ， 在 示例 6-1 中 ， 我 把 Promotion 定义 为 抽象 基 类 (Abstract Base Class, ABC), 这么 
做 是 为 了 使 用 @abstractmethod 装饰 器 ， 从 而 明确 表明 所 用 的 模式 。 

















在 Python 3.4 中 ， 声 明 抽象 基 类 最 简单 的 方式 是 子 类 化 abc.ABC。 我 在 示例 
6-1 中 就 是 这 么 做 的 。 从 Python 3.0 到 Python 3.3， 必 须 在 class 语句 中 使 用 
metaclass= 关键 字 (例如 ，cLass Promotion(metaclass=ABCMeta): ), 

















示例 6-2 是 一 些 doctest， 在 某 个 实现 了 上 述 规则 的 模块 中 演示 和 验证 相关 操作 。 
示例 6-2 使 用 不 同 促销 折扣 的 Order 类 示例 


>>> joe = Customer('John Doe', 0) @ 

>>> ann = Customer('Ann Smith', 1100) 

>>> cart = [LineItem('banana', 4, .5), @ 

LineItem('apple', 10, 1.5), 
: LineItem('watermellon', 5, 5.0)] 

>>> Order(joe, cart, FidelityPromo()) © 

<Order total: 42.00 due: 42.00> 

>>> Order(ann, cart, FidelityPromo()) @ 

<Order total: 42.00 due: 39.90> 

>>> banana_cart = [LineItem('banana', 30, .5), 日 
LineItem('apple', 10, 1.5)] 

>>> > Ordertioe; banana_cart, BulkItemPromo()) @ 

<Order total: 30.00 due: 28.50> 

>>> Long_order = [LineItem(str(item code), 1, 1.0) @ 
for item_code in range(10)] 

>>> > OrdèrČjoe; long_order, LargeOrderPromo()) ©@ 

<Order total: 10.00 due: 9.30> 

>>> Order(joe, cart, LargeOrderPromo()) 

<Order total: 42.00 due: 42.00> 


O 两 个 顾客 : joe 的 积分 是 0，ann 的 积分 是 1100. 

O 有 三 个 商品 的 购物 车 。 

© fidelityPromo 没 给 joe 提供 折扣 。 

O ann 得 到 了 5% 折扣 ， 因 为 她 的 积分 超过 1000。 

@ banana_cart 中 有 30 FEA EAN 10 MER, 

@ BulkItemPromo 为 joe 购买 的 香花 优惠 了 1.50 美元 。 

@ long_order 中 有 10 个 不 同 的 商品 ， 每 个 商品 的 价格 为 1.00 美元 。 
@ LargerOrderPromo 为 joe 的 整个 订单 提供 了 7% 折扣 。 


示例 6-1 完全 可 用 ， 但 是 利用 Python 中 作为 对 象 的 函数 ， 可 以 使 用 更 少 的 代码 实现 相同 的 
功能 。 详 情 参 见 下 一 市 。 


6.1.2 ”使 用 函数 实现 “策略 ”模式 

在 示例 6-1 中 ， 每 个 具体 策略 都 是 一 个 类 ， 而 且 都 只 定义 了 一 个 方法 ， 即 dtscount。 此 外 ， 
策略 实例 没有 状态 (没有 实例 属性 )。 你 可 能 会 说 ， 它 们 看 起 来 像 是 普通 的 函数 一 -的确 

如 此 。 示 例 6-3 是 对 示例 6-1 的 重 构 ， 把 具体 策略 换 成 了 简单 的 函数 ， 而 且 去 掉 了 Prono 

抽象 类 。 
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示例 6-3 Order 类 和 使 用 函数 实现 的 折扣 策略 


from collections import namedtuple 


Customer = namedtuple('Customer', 'name fidelity') 


class LineItem: 


def _ init__(self, product, quantity, price): 
self.product = product 
self.quantity = quantity 
self.price = price 


def total(self): 
return self.price * self.quantity 


class Order: # EFX 


def _ init__(self, customer, cart, promotion=None): 
self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, '__total'): 
self.__total = sum(item.total() for item in self.cart) 
return self.__ total 


def due(self): 
if self.promotion is None: 
discount = 0 
else: 
discount = self.promotion(self) @ 
return self.total() - discount 


def _ repr__(self): 
fmt = '<Order total: {:.2f} due: {:.2f}>' 
return fmt.format(self.total(), self.due()) 


def fidelity_promo(order): © 
""" 为 积分 为 1999 或 以 上 的 顾客 提供 5% 折 扣 """ 


return order.total() * .05 if order.customer.fidelity >= 1000 else 0 


def bulk_item_promo(order): 
""" 单 个 商品 为 20 个 或 以 上 时 提供 16% 折 扣 """ 
discount = 0 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 





def large_order_promo(order): 


@ 计算 折扣 只 


@ 与 示例 6-1 一 样 的 测试 


"iT 





中 的 不 同 商 品 











达到 10 个 或 以 上 时 提供 7% 折 扣 """ 





distinct items = {item.product for item in order.cart} 
if len(distinct items) >= 10: 

return order.total() * .07 
return 0 


需 调用 self.promotion() 国 数 。 
O 没有 抽象 类 。 

O 各 个 策略 都 是 函数 。 
示例 6-3 中 的 代码 比 示 例 6-1 少 12 行 。 不 仅 如 此 ， 新 的 Order 类 使 用 起 来 更 简单 ， 如 示例 
6-4 中 的 doctest 所 示 。 


示例 6-4 ”使 用 函数 实现 的 促销 折扣 的 Order 类 示例 
>>> joe = Customer('John Doe', 0) @ 

>>> ann = Customer('Ann Smith', 1100) 

>>> cart = [LineItem('banana', 4, .5), 
LineItem('apple', 10, 1.5), 

4 LineItem('watermellon', 5, 5.0)] 
>>> Order(joe, cart, fidelity_promo) @ 
<Order total: 42.00 due: 42.00> 

>>> Order(ann, cart, fidelity_promo) 

<Order total: 42.00 due: 39.90> 

>>> banana_cart = [LineItem('banana', 30, .5), 








LineItem('apple', 10, 1.5)] 


>>> > Order (joe, banana_cart, bulk_item_promo) © 
<Order total: 30.00 due: 28.50> 

>>> Long_order = [LineItem(str(item_code), 1, 1.0) 
for item_code in range(10)] 

>>> Oe long_order, large_order_promo) 
<Order total: 10.00 due: 9.30> 

>>> Order(joe, cart, large_order_promo) 

<Order total: 42.00 due: 42.00> 





fi 











件 。 


O 为 了 把 折扣 策略 应 用 到 Order 实例 上 ， 只 需 把 促销 函数 作为 参数 传 入 。 
© 这 个 测试 和 下 一 个 测试 使 用 不 同 的 促销 函数 。 


注意 示例 6-4 中 的 标注 : 没 必 要 在 新 建 订单 时 实例 化 新 的 促销 对 象 ， 函 数 拿 来 即 用 。 

值得 注意 的 是 ,《 设 计 模 式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 作者 指出 :“ 策 略 对 象 通 
常 是 很 好 的 享 元 (flyweight) 
对 象 ， 可 以 同时 在 多 个 上 下 文中 使 用 。 “共享 是 推荐 的 做 法 ， 这 样 不 必 在 每 个 新 的 上 下 文 
(这 里 是 Order 实例 ) 中 使 用 相同 的 策略 时 不 断 新 建 具 体 策略 对 象 ， 从 而 减少 消耗 。 因 此 ， 
为 了 避免 “策略 ”模式 的 一 个 缺点 (运行 时 消耗 ),《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基 








注 3: 《设计 
注 4: 《设计 
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。“ 那 本 书 的 另 一 部 分 对 “部 元 ”下 了 定义 ;* 享 元 是 可 共享 的 
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础 》 的 作者 建议 再 使 用 另 一 个 模式 。 但 此 时 ， 代 码 行 数 和 维护 成 本 会 不 断 梦 升 。 

在 复杂 的 情况 下 ， 需 要 具体 策略 维护 内 部 状态 时 ， 可 能 需要 把 “策略 ”和 “ 享 元 ”模式 结合 
起 来 。 但 是 ， 具 体 策略 一 般 没 有 内 部 状态 ， 只 是 处 理 上 下 文中 的 数据 。 此 时 ， 一 定 要 使 用 普 
通 的 函数 ， 别 去 编写 只 有 一 个 方法 的 类 ， 再 去 实现 另 一 个 类 声明 的 单 函 数 接口 。 函 数 比 用 户 
定义 的 类 的 实例 轻 量 ， 而 且 无 需 使 用 “部 元 ”模式 ， 因 为 各 个 策略 函数 在 Python 编译 模块 
时 只 会 创建 一 次 。 普 通 的 函数 也 是 “可 共享 的 对 象 ， 可 以 同时 在 多 个 上 下 文中 使 用 ”。 

至 此 ， 我 们 使 用 函数 实现 了 “策略 ”模式 ， 由 此 也 出 现 了 其 他 可 能 性 。 假 设 我 们 想 创建 一 
个 “元 策略 “， 让 它 为 指定 的 订单 选择 最 佳 折 扣 。 接 下 来 的 几 节 会 接着 重 构 ， 利 用 函数 和 
模块 是 对 象 ， 使 用 不 同 的 方式 实现 这 个 需求 。 


6.1.3 选择 最 佳 策 略 : 简单 的 方式 
我 们 继续 使 用 示例 6-4 中 的 顾客 和 购物 车 ， 在 此 基础 上 添加 3 个 测试 ， 如 示例 6-5 所 示 。 
示例 6-5 best_prono 函数 计算 所 有 折扣 ， 并 返回 额度 最 大 的 


>>> Order(joe, long_order, best_promo) @ 
<Order total: 10.00 due: 9.30> 

>>> Order(joe, banana_cart, best_promo) @ 
<Order total: 30.00 due: 28.50> 

>>> Order(ann, cart, best_promo) © 
<Order total: 42.00 due: 39.90> 


@ best_promo 为 顾客 joe 选择 Larger_order_promo, 
O iWin BRIM, joe 使 用 bulk_item_promo 提供 的 折扣 。 
O 在 一 个 简单 的 购物 车 中 ，best_promo 为 忠实 顾客 ann 提供 fidelity_promo 优惠 的 折扣 。 


best_promo 函数 的 实现 特别 简单 ， 如 示例 6-6 所 示 。 


示例 6-6 best_promo 迭代 一 个 函数 列表 ， 并 找 出 折扣 额度 最 大 的 


promos = [fidelity_promo, bulk_item_promo, large_order_promo] @ 

































































def best_promo(order): @ 
""" 选 择 可 用 的 最 佳 折扣 





return max(promo(order) for promo in promos) © 


@ promos 列 出 以 函数 实现 的 各 个 策略 。 

O 与 其 他 儿 个 *_promo 函数 一 样 ，best_promo 函数 的 参数 是 一 个 Order 实例 。 

© 使 用 生成 器 表达 式 把 order 传 给 promos 列表 中 的 各 个 函数 ， 返 回 计 算出 的 最 大 折扣 额 
RE 

















示例 6-6 简单 明了 ，promos 是 函数 列表 。 习 惯 函 数 是 一 等 对 象 后 ， 自 然而 然 就 会 构建 那 种 
数据 结构 存储 函数 。 








虽然 示例 6-6 可 用 ， 而 且 易 于 阅读 ， 但 是 有 些 重复 可 能 会 导致 不 易 察觉 的 缺陷 : 若 想 添 加 
新 的 促销 策略 ， 要 定义 相应 的 函数 ， 还 要 记得 把 它 添加 到 promos 列表 中 ;否则 ， 当 新 促销 
国 数 显 式 地 作为 参数 传 给 Order 时 ， 它 是 可 用 的 ， 但 是 best_promo 不 会 考虑 它 。 














继续 往 下 读 ， 了 解 这 个 问题 的 几 种 解决 方案 。 


6.1.4 找 出 模块 中 的 全 部 策略 
在 Python 中 ， 模 块 也 是 一 等 对 象 ， 而 且 标 准 库 提供 了 儿 个 处 理 模 块 的 函数 。Python 文档 
是 这 样 说 明 内 置 函 数 globals 的 。 
globals() 
返回 一 个 字典 ， 表 示 当 前 的 全 局 符号 表 。 这 个 符号 表 始 终 针 对 当前 模块 (对 函数 或 方法 
来 说 ， 是 指定 义 它 们 的 模块 ， 而 不 是 调用 它们 的 模块 ) 。 
示例 6-7 使 用 globals 函数 帮助 best_promo 自动 找到 其 他 可 用 的 *_promo 国 数 ， 过 程 有 点 
曲折 。 


示例 6-7 ”内 省 模块 的 全 局 命名 空间 ， 构 建 promos 列表 
promos = [globals()[name] for name in globals() @ 
if name.endswith('_promo') @ 
and name != 'best_promo'] © 






































def best_promo(order): 


""" 选 择 可 用 的 最 佳 折扣 
return max(promo(order) for promo in promos) @ 


@ 迭代 globals() 返回 字典 中 的 各 个 name, 
O 只 选择 以 _promo 结尾 的 名 称 。 

© 过 滤 掉 best_promo 自身 ， 防 止 无限 递 归 。 
© best_promo 内 部 的 代码 没有 变化 。 

收集 所 有 可 用 促销 的 另 一 种 方法 是 ， 在 一 个 单独 的 模块 中 保存 所 有 策略 函数 ， 把 best_ 
promo 排除 在 外 。 

在 示例 6-8 中 ， 最 大 的 变化 是 内 省 名 为 promotions 的 独立 模块 ， 构 建 策略 国 数列 表 。 注 
意 ， 示 例 6-8 要 导入 promotions 模块 ， 以 及 提供 高 阶 内 省 函数 的 inspect 模块 〈 简 单 起 见 ， 
这 里 没有 给 出 导入 语句 ， 因 为 导入 语句 一 般 放 在 文件 顶部 )。 


示例 6-8 内 省 单独 的 promotions 模块 ， 构 建 promos 列表 
promos = [func for name, func in 
inspect.getmembers(promotions, inspect.isfunction) ] 









































def best_promo(order): 


"" 选 择 可 用 的 最 佳 折扣 
return max(promo(order) for promo in promos) 


inspect.getmembers 国 数 用 于 获取 对 象 (这 里 是 promotions 模块 ) 的 属性 ， 第 二 个 参数 是 
可 选 的 判断 条 件 (一 个 布尔 值 函 数 )。 我 们 使 用 的 是 inspect.isfunction， 只 获取 模块 中 的 
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不 管 怎么 命名 策略 函数 ， 示 例 6-8 都 可 用 ;唯一 重要 的 是 ，promotions 模块 只 能 包含 计算 
订单 折扣 的 函数 。 当 然 ， 这 是 对 代码 的 隐 性 假设 。 如 果 有 人 在 promotions 模块 中 使 用 不 同 
的 签名 定义 函数 ， 那 么 best_promo 函数 尝试 将 其 应 用 到 订单 上 时 会 出 错 。 

我 们 可 以 添加 更 为 严格 的 测试 ， 审 查 传 给 实例 的 参数 ， 进 一 步 过 污 函 数 。 示 例 6-8 的 目的 
不 是 提供 完善 的 方案 ， 而 是 强调 模块 内 省 的 一 种 用 途 。 

动态 收集 促销 折扣 函数 更 为 显 式 的 一 种 方案 是 使 用 简单 的 装饰 顷 。 第 7 章 讨论 函数 装饰 器 
时 会 使 用 其 他 方式 实现 这 个 电 商 “策略 ”模式 示例 。 

下 一 市 讨论 “命令 ”模式 。 这 个 设计 模式 也 常 使 用 单方 法 类 实现 ， 同 样 也 可 以 换 成 普通 的 
国 数 。 


6.2 “命令 ”模式 


“命令 ”设计 模式 也 可 以 通过 把 函数 作为 参数 传递 而 简化 。 这 一 模式 对 类 的 编排 如 图 6-2 
所 示 。 
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图 6-2: 菜单 驱动 的 文本 编辑 器 的 UML 类 图 ， 使 用 “命令 ”设计 模式 实现 。 各 个 命令 可 以 有 不 同 的 
接收 者 (实现 操作 的 对 象 ) 。 对 PasteCommand 来 说 ,接收 者 是 Document。 对 0penCommand 来 说 ， 
接收 者 是 应 用 程序 


“命令 ”模式 的 目的 是 解 耦 调用 操作 的 对 象 〈 调 用 者 ) 和 提供 实现 的 对 象 (接收 者 )。 在 
《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 所 举 的 示例 中 ， 调 用 者 是 图 形 应 用 程序 中 的 菜 
单项 ， 而 接收 者 是 被 编辑 的 文档 或 应 用 程序 自身 。 

这 个 模式 的 做 法 是 ， 在 二 者 之 间 放 一 个 Comand 对 象 ， 让 它 实现 只 有 一 个 方法 (execute) 
的 接口 ， 调 用 接收 者 中 的 方法 执行 所 需 的 操作 。 这 样 ， 调 用 者 无 需 了 解 接 收 者 的 接口 ， 



































而 且 不 同 的 接收 者 可 以 适应 不 同 的 Command 子 类 。 调 用 者 有 一 个 具体 的 命令 ， 通 过 调用 
execute 方法 执行 。 注 意 ， 图 6-2 中 的 MacroCommand 可 能 保存 一 系列 命令 ， 它 的 execute() 
方法 会 在 各 个 命令 上 调用 相同 的 方法 。 

Gamma 等 人 说 过 :“ 命 令 模式 是 回调 机 制 的 面向 对 象 奉 代 品 。 问题 是 ， 我 们 需要 回调 机 
制 的 面向 对 象 替 代 品 吗 ? 有 时 确实 需要 ， 但 并 非 始 终 需 要 。 


我 们 可 以 不 为 调用 者 提供 一 个 Command 实例 ， 而 是 给 它 一 个 国 数 。 此 时 ， 调 用 者 不 用 调用 
command.execute()， 直 接 调 用 command() 即 可 。MacroCommand 可 以 实现 成 定义 了 call 
方法 的 类 。 这 样 ，Macrocommand 的 实例 就 是 可 调用 对 象 ， 各 自 维护 着 一 个 函数 列表 ， 供 以 
后 调用 ， 如 示例 6-9 所 示 。 


示例 6-9 MacroCommand 的 各 个 实例 都 在 内 部 存储 着 命令 列表 
class MacroCommand: 
mn "一 个 执行 一 组 命令 的 命令 " wu 








def __ init__(self, commands): 
self.commands = list(commands) # @ 


def __call__(self): 
for command in self.commands: # @ 
command( ) 


@ 使 用 commands $ By 4) E — PFI Ze, X FE HE WH PR BE Be AGA A RHE TE 
MacroCommand 实例 中 保存 各 个 命令 引用 的 副本 。 
@ 调用 MacroCommand 实例 时 ，seLf.commands 中 的 各 个 命令 依 序 执行 。 


复杂 的 “命令 ”模式 (如 支持 撤销 操作 ) 可 能 需要 更 多 ， 而 不 仅 是 简单 的 回调 函数 。 即 便 
如 此 ， 也 可 以 考虑 使 用 Python 提供 的 几 个 禁 代 品 。 


。 像 示 例 6-9 中 MacroCommand 那样 的 可 调用 实例 ， 可 以 保存 任何 所 需 的 状态 ， 而 且 除 了 
call 之 外 还 可 以 提供 其 他 方法 。 
。 可 以 使 用 亲 包 在 调用 之 间 保 存 国 数 的 内 部 状态 。 


使 用 一 等 函数 对 “命令 ”模式 的 重新 审视 到 此 结束 。 站 在 一 定 高 度 上 看 ， 这 里 采用 的 方式 
与 “策略 ”模式 所 用 的 类 似 : 把 实现 单方 法 接口 的 类 的 实例 替换 成 可 调用 对 象 。 毕 竞 ， 每 
个 Python 可 调用 对 象 都 实现 了 单方 法 接口 ， 这 个 方法 就 是 _call_. 


6.3 ”本 章 小 结 


经 典 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 出 版 几 年 后 ，Peter Norvig 指出 ， 
“在 Lisp 或 Dylan 中 ，23 个 设计 模式 中 有 16 个 的 实现 方式 比 C++ 中 更 简单 ， 而 且 能 保 
持 同 等 质量 ， 至 少 各 个 模式 的 某 些 用 途 如 此 ”(Norvig 的 “Design Patterns in Dynamic 
Languages” 演 讲 ， 第 9 张 幻 灯 片 ，http:/www.norvig.com/design-patterns/index.htm)。Python 
有 些 动态 特性 与 Lisp 和 Dylan 一样， 尤其 是 本 书 这 一 部 分 着 重 讨论 的 一 等 函数 。 

本 章 开 头 引 用 的 那 句 话 是 Ralph Johnson 在 纪念 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 
原 书 出 版 20 周年 的 活动 上 所 说 的 ， 他 指出 这 本 书 的 缺点 之 一 是 :“ 过 多 强调 设计 模式 的 结 
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果 ， 而 没有 细 说 过 程 .”“ 本章 从 “策略 ”模式 开始 ， 使 用 一 等 函数 简化 了 实现 方式 。 
很 多 情况 下 ， 在 Python 中 使 用 函数 或 可 调用 对 象 实现 回调 更 自然 ， 这 比 模仿 Gamma, 
Helm, Johnson il Vlissides 在 书 中 所 述 的 “策略 ”或 “命令 ”模式 要 好 。 本 章 对 “ 策 
略 ” 模 式 的 重 构 和 对 “命令 ”模式 的 讨论 是 为 了 通过 示例 说 明 一 个 更 为 常见 的 做 法 : 
有 上 时， 设计 模式 或 API 要 求 组 件 实现 单方 法 接口 ， 而 那个 方法 的 名 称 很 宽泛 ， 例 如 
“execute”“run” 或 “doIt”。 在 Python 中 ， 这 些 模 式 或 API 通常 可 以 使 用 一 等 函数 或 其 他 
可 调用 的 对 象 实现 ， 从 而 减少 样板 代码 。 

Peter Norvig 那 次 设计 模式 演讲 想 表 达 的 观点 是 ,“ 命 令 ” 和 “策略 ”模式 (以 及 “模板 方 
法 ”和 “访问 者 ”模式 ) 可 以 使 用 一 等 函数 实现 ， 这 样 更 简单 ， 其 至 “不 见 了 ”， 至 少 对 
这 些 模式 的 某 些 用 途 来 说 是 如 此 。 


6.4 ”延伸 阅读 


结束 对 “策略 ”模式 的 讨论 时 ， 我 建议 使 用 函数 装饰 器 改进 示例 6-8。 本 章 还 多 次 提 到 了 
闭 包 。 装 饰 器 和 闭 包 是 第 7 章 的 话题 。 那 一 章 首 先 重 构 本 章 的 电 商 示例 ， 使 用 装饰 器 注册 
可 用 的 促销 方式 。 

《Python Cookbook (第 3 版 ) 中文 版 》(David Beazley 和 Brian K. Jones 车 ) 的 “8.21 实现 
访问 者 模式 ”使 用 优雅 的 方式 实现 了 “访问 者 ”模式 ， 其 中 的 Nodevisitor 类 把 方法 当 作 
一 等 对 象 处 理 。 
在 设计 模式 方面 ，Python 程序 员 的 阅读 选择 没有 其 他 语言 多 。 

据 我 所 知 ， 截 至 2014 年 6 月 ,Learning Python Design Patterns (Gennadiy Zlobin 车 ，Packt 
出 版 社 ) 是 唯一 一 本 专门 针对 Python 设计 模式 的 书 。 不 过 Zlobin 这 本 书 特别 薄 (100 页 )， 
只 涵盖 了 23 种 设计 模式 中 的 8 种 。 

《Python 高 级 编程 》(Tarek Ziadé 著 ) 是 市 面 上 最 好 的 Python 中 级 书 ， 第 14 章 “ 有 用 的 设 
计 模 式 ” 从 Python 程序 员 的 视角 介绍 了 7 种 经 典 模式 。 

Alex Martelli 做 过 几 次 关于 Python 设计 模式 的 演讲 。 他 在 EuroPython 2011 上 的 演讲 有 视 
频 (http://pyvideo.org/europython-2011/python-design-patterns.html)， 他 的 个 人 网 站 中 有 一 
些 幻 灯 片 (http://www.aleax.it/gdd_pydp.pdf)。 这 些 年 ， 我 找到 了 不 同 的 幻灯 片 和 视频 ， 长 
短 不 一 ， 因 此 要 仔细 搜索 他 的 名 字 和 “Python Design Patterns” 这 些 词 。 

2008 年 左右 ,《Java 编程 思想 》 的 作者 Bruce Eckel 开始 写 一 本 题 为 Python 3 Patterns, 


Recipes and Idioms 的 书 (http://www.mindviewinc.com/Books/Python3Patterns/Index.php)。 这 
本 书 有 很 多 贡献 者 ， 领 头 人 是 Eckel， 但 是 六 年 过 去 了 ， 依 然 没 有 写 完 ， 看 样子 是 流产 了 
(写作 本 书 时 ， 仓 库 的 最 后 一 次 改动 是 在 两 年 前 “)。 














































































































注 $: 与 本 章 开 头 引 用 的 那 句 话 同 出 一 处 : 2014 年 11 月 15 H Johnson 在 IME-USP 所 做 的 演讲 ， “Root Cause 
Analysis of Some Faults in Design Patterns” 。 


注 6: 至 本 书 中 文 版 出 版 时 ， 仓 库 的 最 后 一 次 改动 是 在 2015 年 8 月 4 日。 一 一 编者 注 
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用 Java 写 的 设计 模式 书 很 多 ， 其 中 我 最 喜欢 的 一 本 是 《Head First 设计 模式 》(Eric 
Freeman, Bert Bates, Kathy Sierra 和 Elisabeth Robson 著 )。 这 本 书 讲解 了 23 个 经 典 模式 
中 的 16 个 。 如 果 你 喜欢 Head First 系列 从 书 的 古怪 风格 ， 而 且 想 了 解 这 个 主题 ， 你 会 喜欢 
这 本 书 的 。 不 过 ， 它 是 围绕 Java 讲解 的 。 

如 果 想 换个 新 鲜 的 角度 ， 从 支持 鸭子 类 型 和 一 等 函数 的 动态 语言 人 手 ,，《Ruby 设计 模式 》 
(Russ Olsen #) 一 书 有 很 多 见解 也 适用 于 Python。 虽 然 Python 和 Ruby 在 句法 上 有 很 多 区 
别 ， 但 是 二 者 在 语义 方面 很 接近 ， 比 Java 或 C++ 接近 。 


在 “Design Patterns in Dynamic Languages” (http://norvig.com/design-patterns/) 这 一 演讲 
中 ，Peter Norvig 展示 了 如 何 使 用 一 等 函数 (和 其 他 动态 特性 ) 简化 几 个 经 典 的 设计 模式 ， 
或 者 根本 不 需要 使 用 设计 模式 。 

当然 ， 如 果 你 想 认真 研究 这 个 话题 ，Gamma 等 人 写 的 《设计 模式 : 可 复 用 面向 对 象 软 件 
的 基础 》 一 书 是 必 读 的 。 光 是 “引言 ”就 值 回 书 钱 了 。 人 们 经 常 引 用 这 本 书 中 的 两 个 设计 
原则 :“ 对 接口 编程 ， 而 不 是 对 实现 编程 ”和 “优先 使 用 对 象 组 合 ， 而 不 是 类 继承 ”。 
















































































杂 OUR 
Python 拥有 一 等 函数 和 一 等 类 型 ，Norvig 声称 ， 这 些 特 性 对 23 个 模式 中 的 16 个 有 影 
响 (“Design Patterns in Dynamic Languages”, # 10 47%) 4 , http://norvig.com/design- 
patterns/) 。 读 到 下 一 章 你 会 发 现 , Python ZA Až (7.8.2 节 )。 泛 函数 与 CLOS 中 的 
多 方法 (multimethod) 类 似 ，Gamma 等 人 建议 使 用 多 方法 以 一 种 简单 的 方式 实现 经 典 
的 “访问 者 ”模式 。Norvig 却说 ， 多 方法 能 简化 “生成 器 ”(Builder) 模式 (第 10 张 
幻灯 片 )。 可 见 ， 设 计 模 式 与 语言 特性 无 法 精确 对 应 。 


世界 各 地 的 课堂 经 常 使 用 Java 示例 讲解 设计 模式 。 我 不 止 一 次 听 学 生 说 过 ， 他 们 以 为 
设计 模式 在 任何 语言 中 都 有 用 。 事 实证 明 ， 在 Gamma 等 人 合 著 的 那 本 书 中 ， 尽 管 大 
部 分 使 用 C++ 代码 说 明 (少数 使 用 Smalltalk) ， 但 是 23 个 “经 典 的 ”设计 模式 都 能 很 
好 地 在 “经 典 的 ”Java 中 运用 。 然 而 ， 这 并 不 意味 着 所 有 模式 都 能 一 成 不 变 地 在 任何 
语言 中 运用 。 那 本 书 的 作者 在 开头 就 明确 表明 了 ,“ 一 些 特 殊 的 面向 对 象 语言 可 以 直接 
支持 我 们 的 某 些 模式 ” (完整 的 引用 见 本 章 开头 ) 。 


5 Java, C++ 或 Ruby 相 比 ，Python 设计 模式 方面 的 书籍 部 很 薄 。 延 伸 阅 读 中 提 到 
的 Learning Python Design Patterns (Gennadiy Zlobin 著 ) 在 2013 年 11 月 才 出 版 。 而 
«Ruby 设计 模式 》(Russ Olsen 著 ) 在 2007 年 就 出 版 了 , 而且 有 384 页 ， 比 Zlobin 的 
那 本 书 多 出 284 页 。 

如 今 ，Python 在 学 术 界 越 来 越 流 行 ， 希望 以 后 会 有 更 多 以 这 门 语言 讲解 设计 模式 的 书 
籍 。 此 外 ，Java 8 引入 了 方法 引用 和 匿名 函数 ， 这 些 广 受 期 盼 的 特性 有 可 能 为 Java 众 
生 新 的 模式 实现 方式 一 一 要 知道 ， 语 言 会 进化 ， 因 此 运用 经 典 设计 模式 的 方式 必定 要 
随 之 进化 。 
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第 7 章 


函数 天 项 器 和 闭 包 





有 很 多 人 抱 钨 ， 把 这 个 特性 命名 为 “装饰 器 ”不 好 。 主 要 原因 是 ， 这 个 名 称 与 GoF 
书 使 用 的 不 一 致 。 装 饰 器 这 个 名 称 可 能 更 适合 在 编译 器 领域 使 用 ， 因 为 它 会 遍历 并 
注解 句法 树 。 

—— “PEP 318 — Decorators for Functions and Methods” 


函数 装饰 器 用 于 在 源码 中 “标记 ”图 数 ， 以 某 种 方式 增强 国 数 的 行为 。 这 是 一 项 强大 的 功 

能 ， 但 是 若 想 掌握 ， 必 须 理解 团 包 。 

nonlocal 是 新 近 出 现 的 保留 关键 字 ， 在 Python 3.0 中 引入 。 作 为 Python 程序 员 ， 如 果 严 格 
遵守 基于 类 的 面向 对 象 编程 方式 ， 即 便 不 知道 这 个 关键 字 也 不 会 受到 影响 。 然 而 ， 如 果 你 

自己 实现 函数 装饰 器 ， 那 就 必须 了 解 闭 包 的 方方面面 ， 因 此 也 就 需要 知道 nonlocal。 


除了 在 装饰 器 中 有 用 处 之 外 ， 闭 包 还 是 回调 式 异 步 编程 和 函数 式 编程 风格 的 基础 。 


本 章 的 最 终 目标 是 解释 清楚 函数 装饰 器 的 工作 原理 ， 包 括 最 简单 的 注册 装饰 器 和 较 复杂 的 
参数 化 装饰 器 。 但 是 ， 在 实现 这 一 目标 之 前 ， 我 们 要 讨论 下 述 话题 : 

。 Python 如 何 计算 装饰 器 句法 

。 Python 如 何 判断 变量 是 不 是 局 部 的 

。 闭 包 存在 的 原因 和 工作 原理 
。 nonlocal 能 解决 什么 问题 


掌握 这 些 基 础 知识 后 ， 我 们 可 以 进一步 探讨 装饰 器 
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“HE 1: 指 1995 年 出 版 的 英文 原版 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》， 作 者 是 四 个 人 ， 人 们 称 之 为 “四 
人 组 ”(Gang of Four), 
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。 实现 行为 良好 的 装饰 器 
。 标准 库 中 有 用 的 装饰 器 
。 实现 一 个 参数 化 装饰 器 


下 面 将 首先 介绍 装饰 器 的 基础 知识 ， 然 后 再 讨论 上 面 列 出 的 各 个 话题 。 


7.1 装饰 器 基础 知识 


装饰 器 是 可 调用 的 对 象 ， 其 参数 是 另 一 个 函数 (被 装饰 的 函数 )。? 装饰 器 可 能 会 处 理 被 装 
饰 的 函数 ， 然 后 把 它 返回 ,或 者 将 其 禁 换 成 男 一 个 函数 或 可 调用 对 象 。 
假如 有 个 名 为 decorate 的 装饰 器 


@decorate 
def target(): 
print('running target()') 


上 述 代 码 的 效果 与 下 述 写法 一 样 : 


def target(): 
print('running target()') 




















target = decorate(target) 


两 种 写法 的 最 终结 果 一 样 : 上 述 两 个 代码 片段 执行 完毕 后 得 到 的 target 不 一 定 是 原来 那个 
target 国 数 ， 而 是 decorate(target) 返回 的 函数 。 


为 了 确认 被 装饰 的 函数 会 被 替换 ， 请 看 示例 7-1 中 的 控制 台 会 话 
示例 7-1 装饰 器 通常 把 函数 替换 成 另 一 个 国 数 


>>> def deco(func): 
def inner(): 
print('running inner()') 
return inner @ 
>>> @deco 
. def target(): @ 
print('running target()') 


>>> target() © 

running inner() 

>>> target © 

<function deco.<locals>.inner at 0x10063b598> 


@ deco 返回 inner 国 数 对 象 。 

@ 使 用 deco 装饰 target, 

© 调用 被 装饰 的 target 其 实 会 运行 tnner。 

O 审查 对 象 ， 发 现 target 现在 是 inner 的 引用 。 





注 2: Python 也 支持 类 装饰 器 ， 参 见 第 21 章 。 
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严格 来 说 ， 装 饰 喜 只 是 语法 糖 。 如 前 所 示 ， 装 饰 器 可 以 像 常 规 的 可 调用 对 象 那样 调用 ， 甚 参 
数 是 另 一 个 函数 。 有 时 ， 这 样 做 更 方便 ， 尤 其 是 做 元 编程 (在 运行 时 改变 程序 的 行为 ) 时 。 
综 上 ， 装 饰 右 的 一 大 特性 是 ， 能 把 被 装饰 的 国 数 奉 换 成 其 他 国 数 。 第 二 个 特性 是 ， 装 饰 器 
在 加 载 模块 时 立即 执行 。 下 一 节 会 说 明 。 


7.2 ”Python 何 时 执行 装饰 器 


装饰 器 的 一 个 关键 特性 是 ， 它 们 在 被 装饰 的 函数 定义 之 后 立即 运行 。 这 通常 是 在 导入 时 
( 即 Python 加 载 模块 时 )， 如 示例 7-2 中 的 registration.py 模块 所 示 。 








示例 7-2 registration.py 模块 
registry = [] © 


def register(func): @ 
print('running register(%s)' % func) © 
registry.append(func) @ 
return func © 


@register © 
def f1(): 
print('running f1()') 


@register 
def f2(): 
print('running 2()') 


def f3(): Q 
print('running 3()') 


def main(): 
print('running main()') 
print('registry ->', registry) 
f1() 
f2() 
f3() 


if __name__=='__main_' 


main() © 


O registry 保存 被 @register 装饰 的 函数 引用 。 

@ register 的 参数 是 一 个 函数 。 

O 为 了 演示 ， 显 示 被 装饰 的 函数 。 

@ 把 func 存 人 registry, 

O 返回 func, 必须 返回 函数 ， 这 里 返回 的 函数 与 通过 参数 传人 的 一 样 。 
QO f1 和 f2 被 @register 装饰 。 

O f3 没有 装饰 。 

© main 显示 registry， 然 后 调用 f1()、f2() 和 f3()。 

只 有 把 registration.py 当 作 脚本 运行 时 才 调 用 main()。 














fe 
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把 registration.py 当 作 脚 本 运行 得 到 的 输出 如 下 : 


$ python3 registration.py 

running register(<function fl at 0x100631bf8>) 

running register(<function f2 at 0x100631c80>) 

running main() 

registry -> [<function f1 at 0x100631bf8>, <function f2 at 0x100631c80>] 
running f1() 

running f2() 

running f3() 


TEE, register 在 模块 中 其 他 函数 之 前 运行 (两 次 )。 调 用 register 时 ， 传 给 它 的 参数 是 
被 装饰 的 函数 ， 例 如 <function f1 at 0x100631bf8>, 


加 载 模块 后 ，registry 中 有 两 个 被 装饰 函数 的 引用 : f1 和 f2。 这 两 个 函数 ， 以 及 f3， 只 
在 main 明确 调用 它们 时 才 执 行 。 


如 果 导 入 registration.py 模块 (不 作为 脚本 运行 )， 输 出 如 下 : 


>>> import registration 
running register(<function f1 at 0x10063b1e0>) 
running register(<function f2 at 0x10063b268>) 


此 时 查看 registry 的 值 ， 得 到 的 输出 如 下 : 


>>> registration.registry 
[<function f1 at 0x10063b1e0>, <function f2 at 0x10063b268>] 


示例 7-2 主要 想 强 调 ， 函 数 装饰 器 在 导入 模块 时 立即 执行 ， 而 被 装饰 的 函数 只 在 明确 调用 

时 运行 。 这 突出 了 Python 程序 员 所 说 的 导入 时 和 运行 时 之 间 的 区 别 。 

考虑 到 装饰 器 在 真实 代码 中 的 常用 方式 ， 示例 7-2 有 两 个 不 寻常 的 地 方 。 

。 装饰 器 函数 与 被 装饰 的 函数 在 同一 个 模块 中 定义 。 实 际 情况 是 ， 装 饰 器 通常 在 一 个 模块 
中 定义 ， 然 后 应 用 到 其 他 模块 中 的 函数 上 。 

e register 装饰 器 返回 的 函数 与 通过 参数 传人 的 相同 。 实 际 上 ， 大 多 数 装饰 器 会 在 内 部 定 
义 一 个 函数 ， 然 后 将 其 返回 。 

虽然 示例 7-2 中 的 register 装饰 器 原封 不 动 地 返回 被 装饰 的 函数 ， 但 是 这 种 技术 并 非 没 

有 用 处 。 很 多 Python Web 框架 使 用 这 样 的 装饰 器 把 函数 添加 到 某 种 中 央 注 册 处 ， 例 如 把 

URL 模式 映射 到 生成 HTTP 响应 的 函数 上 的 注册 处 。 这 种 注册 装饰 器 可 能 会 也 可 能 不 会 修 

改 被 装饰 的 函数 。 下 一 节 会 举例 说 明 。 


7.3 使 用 装饰 器 改进 “策略 ”模式 


使 用 注册 装饰 器 可 以 改进 6.1 节 中 的 电 商 促销 折扣 示例 。 


回顾 一 下 ， 示 例 6-6 的 主要 问题 是 ， 定 义 体 中 有 函数 的 名 称 ， 但 是 best_promo 用 来 判断 哪 
个 折扣 幅度 最 大 的 promos 列表 中 也 有 函数 名 称 。 这 种 重复 是 个 问题 ， 因 为 新 增 策略 函数 后 
可 能 会 忘记 把 它 添加 到 promos 列表 中 ， 导 致 best_promo 忽略 新 策略 ， 而 且 不 报错 ， 为 系 
统 引 入 了 不 易 察 觉 的 缺陷 。 示 例 7-3 使 用 注册 装饰 器 解决 了 这 个 问题 。 
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示例 7-3 promos 列表 中 的 值 使 用 promotion 装饰 器 填充 
promos = [] @ 


def promotion(promo_func): @ 
promos.append(promo_func) 
return promo_func 


@promotion © 
def fidelity(order): 
"为 积分 为 1998 或 以 上 的 顾客 提供 5% 折 扣 """ 


return order.total() * .05 if order.customer.fidelity >= 1000 else 0 


@promotion 
def bulk_item(order): 
""" 单 个 商品 为 2 个 或 以 上 时 提供 10% 折 扣 """ 
discount = 0 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


@promotion 
def large_order(order): 
""" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 ”"" 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return 0 





def best_promo(order): @ 
""" 选 择 可 用 的 最 佳 折扣 





return max(promo(order) for promo in promos) 


Q promos 列表 起 初 是 空 的 。 

@ promotion 把 promo_func 添加 到 promos 列表 中 ， 然 后 原封 不 动 地 将 其 返回 。 
© 被 @promotion 装饰 的 函数 都 会 添加 到 promos 列表 中 。 

© best_promos 无 需 修改 ， 因 为 它 依赖 promos 列表 。 


与 6.1 节 给 出 的 方案 相 比 ， 这 个 方案 有 几 个 优点 。 


。 促销 策略 函数 无 需 使 用 特殊 的 名 称 ( 即 不 用 以 _promo 结尾 ) 。 

e ”@promotion 装饰 器 突出 了 被 装饰 的 函数 的 作用 ， 还 便于 临时 禁用 某 个 促销 策略 : 只 需 把 
装饰 器 注释 掉 。 

。 促销 折扣 策略 可 以 在 其 他 模块 中 定义 ， 在 系统 中 的 任何 地 方 都 行 ， 只 要 使 用 @promotion 
装饰 即 可 。 

不 过 ， 多 数 装 饰 器 会 修改 被 装饰 的 函数 。 通 常 ， 它 们 会 定义 一 个 内 部 函数 ， 然 后 将 其 返 

回 ， 禁 换 被 装饰 的 函数 。 使 用 内 部 函数 的 代码 几乎 都 要 靠 闭 包 才能 正确 运作 。 为 了 理解 闭 

包 ， 我 们 要 退 后 一 步 ， 先 了 解 Python 中 的 变量 作用 域 。 
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7.4 变量 作用 域 规则 


在 示例 7-4 中 ， 我 们 定义 并 测试 了 一 个 国 数 ， 它 读 取 两 个 变量 的 值 : 一 个 是 局 部 变量 a， 
是 国 数 的 参数 ， 另 一 个 是 变量 b， 这 个 国 数 没 有 定义 它 。 


示例 7-4 一 个 函数 ， 读 取 一 个 局 部 变量 和 一 个 全 局 变量 
>>> def f1(a): 
print(a) 
print(b) 








>>> f1(3) 
3 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
File "<stdin>", line 3, in f1 
NameError: global name 'b' is not defined 


出 现 错误 并 不 奇怪 。’ 在 示例 7-4 中 ， 如 果 先 给 全 局 变量 b 赋值 ， 然 后 再 调用 f1， 那 就 不 会 
出 错 : 




















>>> b = 6 
>>> f1(3) 
3 
6 





下 面 看 一 个 可 能 会 让 你 吃惊 的 示例 。 


看 一 下 示例 7-5 中 的 f2 函数 。 前 两 行 代码 与 示例 7-4 中 的 f1 一 样 ， 然 后 为 赋值， 再 打 
印 它 的 值 。 可 是 ， 在 赋值 之 前 ， 第 二 个 print 失败 了 。 


示例 7-5 b 是 局 部 变量 ， 因 为 在 函数 的 定义 体 中 给 它 赋值 了 

















>>> b = 6 

>>> def f2(a): 

ee print(a) 
print(b) 
b=9 

>>> f2(3) 

3 


Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
File "<stdin>", line 3, in f2 
UnboundLocalError: local variable 'b' referenced before assignment 








注意 ， 首 先 输出 了 3， 这 表明 print(a) 语句 执行 了 。 但 是 第 二 个 语句 print(b) 执行 不 了 。 
一 开始 我 很 吃惊 ,我 觉得 会 打印 6， 因 为 有 个 全 局 变量 pb， 而 且 是 在 print(b) 之 后 为 局 部 
变量 b 赋值 的 。 


可 事实 是 ，Python 编译 函数 的 定义 体 时 ， 它 判断 b 是 局 部 变量 ， 因 为 在 函数 中 给 它 赋 值 


















































注 3: 在 Python 3.5 中 ,错误 信息 是 NameError: name 'b' is not defined， 删 除了 global, 一 一 编者 注 
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了 。 生 成 的 字 布 码 证 实 了 这 种 判断 ，Python 会 尝试 从 本 地 环境 获取 b. Jah 


f2 的 定义 体会 获取 并 打印 局 部 变量 a 的 值 ， 但 是 尝试 绪 取 局 部 变 





绑 定 值 。 











E. 


a 











i 调用 f2(3) 时 ， 








b 的 值 时 ， 发 现 b 没 有 





这 不 是 缺陷 ， 而 是 设计 选择 : Python 不 要 求 声 明 变 量 ,但 是 假定 在 函数 定义 体 中 赋值 的 变 
量 是 局 部 变量 。 这 比 JavaScript HTHH L T, JavaScript 也 不 要 求 声 明 变 量 ,， 但 是 如 果 忘 
记 把 变量 声明 为 局 部 变量 (使 用 var)， 可 能 会 在 不 知情 的 情况 下 获取 全 局 变量 。 











如 果 在 函数 中 赋值 时 想 让 解释 器 把 b 当成 全 局 





>>> b = 6 

>>> def f3(a): 

shee global b 
print(a) 
print(b) 
b=9 

>>> £3(3) 

3 

6 

>>> b 

9 

>>> £3(3) 

3 

9 

>>> b = 30 

>>> b 

30 


>>> 


变量 ， 要 使 用 global 声明 : 


























TAR Python 的 变量 作用 域 之 后 ， 下 一 节 可 以 讨论 困 包 了 。 如 有 果 好 奇 示 例 7-4 和 示例 7-5 中 
的 两 个 函数 生成 的 字 市 码 有 什么 区 别 ， 请 阅读 下 述 附 注 栏 。 








例 7-4 中 f1 和 示例 7-5 中 f2 WF AG, 


示例 7-6 反 汇 编 示例 7-4 中 的 f1 函数 
>>> from dis import dis 
>>> dis(f1) 


2 © LOAD_GLOBAL 
3 LOAD_FAST 
6 CALL_FUNCTION 
9 POP_TOP 

3 10 LOAD_GLOBAL 


13 LOAD_GLOBAL 
16 CALL_FUNCTION 





比较 字 节 码 
dis 模块 为 反 汇编 Python 函数 字 节 三 提供 了 简单 的 方式 。 示 例 7-6 和 7-7 中 分 别 是 示 


0 (print) @ 
0 (a) © 


1 (1 positional, © keyword pair) 


© (print) 
1 (b) © 


1 (1 positional, 0 keyword pair) 
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19 POP_TOP 
20 LOAD_CONST 0 (None) 
23 RETURN_VALUE 


O 加 载 全 局 名 称 print。 

O 加 载 本 地 名 称 a。 

O 加 载 全 局 名 称 b。 

请 比较 示例 7-6 中 fl 的 字 节 码 和 示例 7-7 中 f2 的 字 节 码 。 


示例 7-7 反 汇 编 示 例 7-5 中 的 f2 函数 
>>> dis(f2) 


2 6 LOAD_GLOBAL 0 (print) 
3 LOAD_FAST 0 (a) 
6 CALL_FUNCTION 1 (1 positional, 0 keyword pair) 
9 POP_TOP 
3 10 LOAD_GLOBAL 0 (print) 
13 LOAD_FAST 1(b) O 
16 CALL_FUNCTION 1 (1 positional, © keyword pair) 
19 POP_TOP 
4 20 LOAD_CONST 1 (9) 
23 STORE_FAST 1 (b) 
26 LOAD_CONST 0 (None) 


29 RETURN_VALUE 
O 加 载 本 地 名 称 b。 这 表明 ， 编 译 器 把 b 视 作 局 部 变量 ， 即 使 在 后 面 才 为 b 赋值 ， 
为 变量 的 种 类 (是 不 是 局 部 变量 ) 不 能 改变 函数 的 定义 体 。 
运行 字 节 码 的 CPython VM 是 栈 机 器 ， 因 此 LOAD 和 POP 操作 引用 的 是 栈 。 深 入 说 
明 Python 操作 码 不 在 本 书 范畴 之 内 ， 不 过 dis 模块 的 文档 (http://docs.python.org/3/ 
library/dis.html) 对 其 做 了 说 明 。 
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ERZE, UTA SER AE A SR. eA EAA: 在 函数 内 部 定义 函数 
ANIL, AAA EARRA Sik. MA, RAB RKE RABIN AA A) lala. 
因此 ， 很 多 人 是 同时 知道 这 两 个 概念 的 。 
其 实 ， 闭 包 指 延伸 了 作用 域 的 国 数 ， 其 中 包含 国 数 定 义 体 中 引用 、 但 是 不 在 定义 体 中 定义 的 
非 金 局 变量 。 函 数 是 不 是 匿名 的 没有 关系 ， 关 键 是 它 能 访问 定义 体 之 外 定义 的 非 全 局 变量 。 
这 个 概念 难以 掌握 ， 最 好 通过 示例 理解 。 


假如 有 个 名 为 ava 的 函数 ， 它 的 作用 是 计算 不 断 增加 的 系列 值 的 均值 ， 例 如 ， 整 个 历史 中 
某 个 商品 的 平均 收盘 价 。 每 天 都 会 增加 新 价格 ， 因 此 平均 值 要 考虑 至 目前 为 止 所 有 的 价格 。 


起 初 ，avg 是 这 样 使 用 的 : 
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>>> avg(10) 
10.0 
>>> avg(11) 
10.5 
>>> avg(12) 
11.0 


avg 从 何 而 来 ， 它 又 在 哪里 保存 历史 值 呢 ? 
初学 者 可 能 会 像 示 例 7-8 那样 使 用 类 实现 。 
示例 7-8 average_oo.py: 计算 移动 平均 值 的 类 


class Averager() : 








def _ init__(self): 
self.series = [] 


def __call__ (self, new_value): 
self.series.append(new_vaLue) 
total = sum(self.series) 
return total/len(self.series) 


Averager 的 实例 是 可 调用 对 象 : 


>>> avg = Averager() 
>>> avg(10) 

10.0 

>>> avg(11) 

10.5 

>>> avg(12) 

11.0 


示例 7-9 是 函数 式 实现 ， 使 用 高 阶 函 数 make_averager , 


示例 7-9 average.py: 计算 移动 平均 值 的 高 阶 函 数 
def make_averager(): 
series = [] 


def averager(new_value): 
series. append(new_vaLue) 
total = sum(series) 
return total/len(series) 


return averager 





调用 make_averager 时 ， 返 回 一 个 averager 函数 对 象 。 每 次 调用 averager 时 ， 它 会 把 参数 
添加 到 系列 值 中 ， 然 后 计算 当前 平均 值 ， 如 示例 7-10 所 示 。 


示例 7-10 测试 示例 7-9 
>>> avg = make_averager() 
>>> avg(10) 

10.0 
>>> avg(11) 
10.5 
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>>> avg(12) 
11.0 


注意 ， 这 两 个 示例 有 共通 之 处 : 调用 Averager() 或 make_averager() 得 到 一 个 可 调用 对 象 
avg， 它 会 更 新 历史 值 ， 然 后 计算 当前 均值 。 在 示例 7-8 中 ，avg 是 Averager 的 实例 ， 在 示 
例 7-9 中 是 内 部 函数 averager。 不 管 怎 样 ， 我 们 都 只 需 调用 ava(n), HE n 放 入 系列 值 中 ， 
然后 重新 计算 均值 。 

Averager 类 的 实例 avg 在 哪里 存储 历史 值 很 明显 : self.series 实例 属性 。 但 是 第 二 个 示 
例 中 的 avg 函数 在 哪里 寻找 series WE? 

注意 ，series 是 make_averager 国 数 的 局 部 变量 ， 因 为 那个 国 数 的 定义 体 中 初始 化 了 
series; series = []。 可 是 ， 调 用 avg(10) 时 ，make_averager 国 数 已 经 返回 了 ， 而 它 的 本 
地 作用 域 也 一 去 不 复 返 了 。 


在 averager 国 数 中 ，series 是 自由 变量 (free variable)。 这 是 一 个 技术 术语 ， 指 未 在 本 地 
作用 域 中 绑 定 的 变量 ， 参 见 图 7-1。 












































def make_averager(): 


, series = [] 
闭 包 
def averager(new value): 
自由 变量 [series]. append(new_value) 


total = sum(series) 
return total/len(series) 











return averager 





7-1; averager 的 闭 包 延伸 到 那个 函数 的 作用 域 之 外 ， 包 含 自 由 变量 series HAE 


审查 返回 的 averager 对 象 ， 我 们 发 现 Python 在 _code__ 属性 (表示 编译 后 的 函数 定义 体 ) 
中 保存 局 部 变量 和 自由 变量 的 名 称 ， 如 示例 7-11 所 示 。 


示例 7-11 审查 make_averager ( 见 示例 7-9) 创建 的 函数 
>>> avg.__code__.co_varnames 
('new_value', 'total') 
>>> avg.__code__.co_freevars 
('series',) 


series 的 绑 定 在 返回 的 avg BCA __closure_ JR PEFR, avg.__closure_ 中 的 各 个 元 
素 对 应 于 avg.__code__.co_freevars 中 的 一 个 名 称 。 这 些 元 素 是 cell MR, AA cell_ 
contents 属性 ， 保 存 着 真正 的 值 。 这 些 属性 的 值 如 示例 7-12 所 示 。 


示例 7-12 ”接续 示例 7-11 
>>> avg.__code__.co_freevars 
('series',) 
>>> avg.__closure__ 
(<cell at 0x107a44f78: List object at 0x107a91a48>, ) 
>>> avg.__closure__[0].cell_contents 
[10, 11, 12] 
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综 上 ， 闭 包 是 一 种 函数 ， 它 会 保留 定义 函数 时 存在 的 自由 变量 的 绑 定 ， 这 样 调用 函数 时 ， 
虽然 定义 作用 域 不 可 用 了 ， 但 是 仍 能 使 用 那些 绑 定 。 
注意 ， 只 有 髓 人 套 在 其 他 函数 中 的 函数 才 可 能 需要 处 理 不 在 全 局 作用 域 中 的 外 部 变量 。 


7.6 ” ”nonlocal 声明 


前 面 实现 make_averager 函数 的 方法 效率 不 高 。 在 示例 7-9 中 ， 我 们 把 所 有 值 存储 在 历史 
数列 中 ， 然 后 在 每 次 调用 averager 时 使 用 sun 求 和 。 更 好 的 实现 方式 是 ， 只 存储 目前 的 总 
值 和 元 素 个 数 ， 然 后 使 用 这 两 个 数 计算 均值 。 


示例 7-13 中 的 实现 有 缺陷 ， 只 是 为 了 阐明 观点 。 你 能 看 出 缺陷 在 哪儿 吗 ? 
示例 7-13 ”计算 移动 平均 值 的 高 阶 函 数 ， 不 保存 所 有 历史 值 ， 但 有 缺陷 


def make_averager(): 
count = 0 
total = 0 















































def averager(new_value): 
count += 1 
total += new_value 
return total / count 


return averager 
尝试 使 用 示例 7-13 中 定义 的 函数 ， 会 得 到 如 下 结果 : 
>>> avg = make_averager() 


>>> avg(10) 
Traceback (most recent call last): 

















UnboundLocalError: local variable 'count' referenced before assignment 
>>> 


问题 是 ， 当 count 是 数字 或 任何 不 可 变 类 型 时 ，count += 1 语句 的 作用 其 实 与 count = 
count + 1 一 样 。 因 此 ， 我 们 在 averager 的 定义 体 中 为 count 赋值 了 ， 这 会 把 count 变 成 
局 部 变量 。total 变量 也 受 这 个 问题 影响 。 
示例 7-9 没 遇 到 这 个 问题 ， 因 为 我 们 没有 给 series 赋值 ， 我 们 只 是 调用 series.append， 
并 把 它 传 给 sum 和 Len。 也 就 是 说 ， 我 们 利用 了 列表 是 可 变 的 对 象 这 一 事实 。 

但 是 对 数字 、 字 符 串 、 元 组 等 不 可 变 类 型 来 说 ， 只 能 读 取 ， 不 能 更 新 。 如 果 演 试 重 新 绑 
定 ， 例 如 count = count + 1， 其 实 会 隐 式 创建 局 部 变量 count。 这 样 ，count 就 不 是 自由 
变量 了 ， 因 此 不 会 保存 在 闭 包 中 。 

为 了 解决 这 个 问题 ，Python 3 引入 了 nonlocal 声明 。 它 的 作用 是 把 变量 标记 为 自由 变量 ， 
即使 在 函数 中 为 变量 赋予 新 值 了 ， 也 会 变 成 自由 变量 。 如 果 为 nonlocal 声明 的 变量 赋予 新 
值 ， 闭 包 中 保存 的 绑 定 会 更 新 。 最 新 版 make_averager 的 正确 实现 如 示例 7-14 所 示 。 

































































示例 7-14 ”计算 移动 平均 值 ， 不 保存 所 有 历史 (使 用 nonlocal 修正 ) 


def make_averager(): 
count = 0 
total = 0 


def averager(new_value): 
nonlocal count, total 
count += 1 
total += new_value 
return total / count 


return averager 


对 付 没 有 nonlocal 的 Python 2 

Python 2 没有 nonLocaL， 因 此 需要 变通 方法 ,“PEP 3104—Access to Names in 
Outer Scopes” (nonlocal 在 这 个 PEP 中 引入 ，http://www.python.org/dev/peps/ 
pep-3104/) 中 的 第 三 个 代码 片段 给 出 了 一 种 方法 。 基 本 上 ， 这 种 处 理 方式 是 
把 内 部 函数 需要 修改 的 变量 (如 count 和 total) 存储 为 可 变 对 象 (如 字典 或 
简单 的 实例 ) 的 元 素 或 属性 ， 并 且 把 那个 对 象 绑 定 给 一 个 自由 变量 。 










































































至 此 ， 我 们 了 解 了 Python 闭 包 ， 下 面 可 以 使 用 租 套 函数 正式 实现 装饰 器 了 。 


7.7 ”实现 一 个 简单 的 装饰 器 


示例 7-15 定义 了 一 个 装饰 器 ， 它 会 在 每 次 调用 被 装饰 的 函数 时 计时 ， 然 后 把 经 过 的 时 间 、 


传 入 的 参数 和 调用 的 结果 打印 出 来 。 
示例 7-15 一 个 简单 的 装饰 器 ， 输 出 函数 的 运行 时 间 


import time 


def clock(func): 

def clocked(*args): # ©@ 
tO = time.perf_counter() 
result = func(*args) #@ 
elapsed = time.perf_counter() - tO 
name = func.__name__ 
arg_str = ', '.join(repr(arg) for arg in args) 
print('[%0.8fs] %s(%s) -> %r' % (elapsed, name, arg_str, result)) 
return result 

return clocked # © 


@ 定义 内 部 函数 cLocked， 它 接受 任意 个 定位 参数 。 

O 这 行 代码 可 用 ， 是 因为 clocked 的 闭 包 中 包含 自由 变量 func, 
© 返回 内 部 函数 ， 取 代 被 装饰 的 函数 。 

示例 7-16 演示 了 clock 装饰 器 的 用 法 。 
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示例 7-16 使 用 clock 装饰 器 


# clockdeco_demo.py 


import time 
from clockdeco import clock 


@clock 
def snooze(seconds): 
time.sleep(seconds) 


@clock 
def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


1 E 


if __name__=='__main_ 
print('*' * 40, 'Calling snooze(.123)') 
snooze(.123) 
print('*' * 40, 'Calling factorial(6)') 
print('6! =', factorial(6)) 


运行 示例 7-16 得 到 的 输出 如 下 : 


$ python3 clockdeco_demo.py 


kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk Calling snooze(.123) 


[0.12405610s] snooze(.123) -> None 
kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk Calling factorial(6) 
[0.00000191s] factorial(1) -> 1 

[0.00004911s] factorial(2) -> 2 

[0.00008488s] factorial(3) -> 6 

[0.00013208s] factorial(4) -> 24 

[0.00019193s] factorial(5) -> 120 

[0.00026107s] factorial(6) -> 720 

6! = 720 


工作 原理 
记得 吗 ， 如 下 代码 ， 


@clock 
def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


其 实 等 价 于 : 


def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 

















factorial = clock(factorial) 


因此 ， 在 两 个 示例 中 ，factorial 会 作为 func 参数 传 给 clock (参见 示例 7-15)。 然 后 ， 
clock 国 数 会 返回 clocked 函数 ，Python 解释 器 在 背后 会 把 clocked 赋值 给 factoriaL。 其 
K, A clockdeco_demo 模块 后 查看 factorial 的 __name__ 属性 ， 会 得 到 如 下 结果 : 


>>> import clockdeco_demo 











in 








| 大 
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>>> clockdeco_demo.factorial.__name__ 
"clocked' 
>>> 


所 以 ， 现 在 factorial 保存 的 是 clocked 函数 的 引用 。 自 此 之 后 ， 每 次 调用 factorial(n), 
执行 的 都 是 clocked(n), clocked 大 致 做 了 下 面 几 件 事 。 

(1) 记录 初始 时 间 to, 

(2) 调用 原来 的 factorial 国 数 ， 保 存 结果 。 
(3) 计算 经 过 的 时 间 。 

(4) 格 式 化 收集 的 数据 ， 然 后 打印 出 来 。 

(53) 返 回 第 2 步 保 存 的 结果 。 

这 是 装饰 器 的 典型 行为 : 把 被 装饰 的 函数 替换 成 新 国 数 ， 二 者 接受 相同 的 参数 ， 而 且 ( 通 
常 ) 返回 被 装饰 的 函数 本 该 返回 的 值 ， 同 时 还 会 做 些 额外 操作 。 


Gamma 等 人 写 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 是 这 样 概 
述 “ 装 饰 器 ”模式 的 :“ 动 态 地 给 一 个 对 象 添加 一 些 额外 的 职责 。” 函数 装饰 
器 符合 这 一 说 法 。 但 是 ， 在 实现 层面 ，Python 装饰 器 与 《设计 模式 : 可 复 用 
面向 对 象 软件 的 基础 》 中 所 述 的 “装饰 器 ”没有 多 少 相似 之 处 。 杂谈” 会 
进一步 探讨 这 个 话题 。 


























示例 7-15 中 实现 的 clock 装饰 器 有 几 个 缺点 : 不 支持 关键 字 参 数 ， 而 且 庶 盖 了 被 装饰 函数 
HY) __name__ 和 __doc__ 属 性。 示例 7-17 使 用 functools.wraps 装饰 器 把 相关 的 属性 从 func 
复制 到 clocked 中 。 此 外 ， 这 个 新 版 还 能 正确 处 理 关 键 字 参 数 。 


示例 7-17 改进 后 的 clock 装饰 器 
# clockdeco2.py 


import time 
import functools 


def clock(func): 
@functools.wraps(func) 
def clocked(*args, **kwargs): 
tO = time.time() 
result = func(*args, **kwargs) 
elapsed = time.time() - tO 
name = func.__name__ 
arg_lst = [] 
if args: 
arg_lst.append(', '.join(repr(arg) for arg in args)) 
if kwargs: 
pairs = ['%s=%r' % (k, w) for k, w in sorted(kwargs.items())] 
arg_lst.append(', '.join(pairs)) 
arg_str = ', '.join(arg_lst) 
print('[%0.8fs] %s(%s) -> %r ' % (elapsed, name, arg_str, result)) 
return result 
return clocked 
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functools.wraps 只 是 标准 库 中 拿 来 即 用 的 装饰 器 之 一 。 下 一 节 将 介绍 functools 模块 中 最 
让 人 印象 深刻 的 两 个 装饰 器 : Lru_cache 和 singledispatch, 


— zp SS 大 一 
7.8 ”标准 库 中 的 装饰 器 
Python 内 置 了 三 个 用 于 装饰 方法 的 函数 : property、classmethod 和 staticmethod, property 
在 19.2 节 讨 论 ， 另 外 两 个 在 9.4 市 讨论 。 
另 一 个 常见 的 装饰 器 是 functools.wraps， 它 的 作用 是 协助 构建 行为 良好 的 装饰 器 。 我 
们 在 示例 7-17 中 用 过 。 标 准 库 中 最 值得 关注 的 两 个 装饰 器 是 Lru_cache 和 全 新 的 
singledispatch (Python 3.4 新 增 )。 这 两 个 装饰 器 都 在 functools 模块 中 定义 。 接 下 来 分 
别 讨论 它们 。 











7.8.1 使 用 functooLs.Lru_cache 做 备 忘 
functools.lru_cache 是 非常 实用 的 装饰 器 ， 它 实现 了 备 忘 (memoization) 功能 。 这 是 一 
项 优化 技术 ， 它 把 耗 时 的 函数 的 结果 保存 起 来 ， 避 免 传 人 相同 的 参数 时 重复 计算 。LRU 三 
个 字母 是 “Least Recently Used” HHS, 表明 缓 存 不 会 无 限制 增长 ,一段 时 间 不 用 的 缓存 
条 目 会 被 扔 掉 。 

生成 第 nn 个 翡 波 纳 契 数 这 种 慢 速 递归 函数 适合 使 用 Lru_cache， 如 示例 7-18 所 示 。 

示例 7-18 ÆRE n TAEDA, GAUSS RE 


from clockdeco import clock 











@clock 
def fibonacci(n): 
if n < 2: 
return n 
return fibonacci(n-2) + fibonacci(n-1) 
if __name__=='_ main_': 
print(fibonacci(6) ) 


运行 fbo_demo.py 得 到 的 结果 如 下 。 除 了 最 后 一 行 ， 其 余 输出 都 是 clock 装饰 器 生成 的 。 


$ python3 fibo_demo.py 

[0.00000095s] fibonacci(O) - 
[0.00000095s] fibonacci(1) - 
[0.00007892s] fibonacci(2) - 
[0.00000095s] fibonacci(1) - 
[0.00000095s] fibonacci(O) - 
[0.00000095s] fibonacci(1) - 
[0.00003815s] fibonacci(2) - 
[0.00007391s] fibonacci(3) - 
[©.00018883s] fibonacci(4) - 
[0.00000000s] fibonacci(1) - 
[0.00000095s] fibonacci(O) - 
[0.00000119s] fibonacci(1) - 
[0.00004911s] fibonacci(2) - 
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[0.00009704s] fibonacci(3) - 
[0.00000000s] fibonacci(O) - 
[©.00000000s] fibonacci(1) - 
[0.00002694s] fibonacci(2) - 
[0.00000095s] fibonacci(1) - 
[0.00000095s] fibonacci(@) - 
[0.00000095s] fibonacci(1) - 
[0.00005102s] fibonacci(2) - 
[0.00008917s] fibonacci(3) - 
[0.00015593s] fibonacci(4) - 
[0.00029993s] fibonacci(5) - 
[0.00052810s] fibonacci(6) - 
8 


ANWNFPRPRORRRF ON 


vvvvVVVV VV Vv YV 


浪费 时 间 的 地 方 很 明显 : fibonacci(1) 调用 了 8 ve, fibonacci(2) 调用 了 5 次 ……: 但 


如 果 增 加 两 行 代 码 ， 使 用 Lru_cache， 性 能 会 显著 改善 ， 如 示例 7-19 所 示 。 
示例 7-19 使 用 缓存 实现 ， 速 度 更 快 


import functools 
from clockdeco import clock 


@functools.lru_cache() # @ 
@clock #@ 
def fibonacci(n): 

if n< 2: 

return n 

return fibonacci(n-2) + fibonacci(n-1) 
if _ name ==' main_': 
print(fibonacci(6)) 


@ 注意 ， 必 须 像 常规 函数 那样 调用 Lru_cache。 这 一 行 中 有 一 对 括号 :efunctoots.tru_ 


cache()。 这 么 做 的 原因 是 ，Lru_cache 可 以 接受 配置 参数 ， 稍 后 说 明 。 
O 这 里 又 放 了 装饰 器 : QLru_cache() 应 用 到 @clock 返回 的 函数 上 。 


这 样 一 来 ， 执 行 时 间 减 半 了 ， 而 且 n 的 每 个 值 只 调用 一 次 函数 : 


$ python3 fibo demo_lru.py 
[0.00000119s] fibonacci(0) -> 
[0.00000119s] fibonacci(1) -> 
[0.00010800s] fibonacci(2) -> 
[0.00000787s] fibonacci(3) -> 
> 
> 
> 








[0.00016093s] fibonacci(4) - 
[0.00001216s] fibonacci(5) - 
[0.00025296s] fibonacci(6) - 


ANWNrFH © 





在 计算 Fibonacci (30) 的 另 一 个 测试 中 ， 示 例 7-19 中 的 版 本 在 0.0005 秒 内 调用 了 31 次 


fibonacci 函数 ， 而 示例 7-18 中 未 缓存 的 版 本 调用 fibonacci K% 2 692 537 次 ， 在 使 用 


Intel Core i7 处 理 器 的 笔记 本 电脑 中 耗 时 17.7 秒 。 
除了 优化 递归 算法 之 外 ，Lru_cache 在 从 Web 中 获取 信息 的 应 用 中 也 能 发 挥 巨 大 作用 。 
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特别 要 注意 ，Lru_cache 可 以 使 用 两 个 可 选 的 参数 来 配置 。 它 的 签名 是 : 
functools.lru_cache(maxsize=128, typed=False) 

maxsize SAH Eine > TAZA. RFT Za, IRR eh, BEEN, 

为 了 得 到 最 佳 性 能 ，maxsize 应 该 设 为 2 WHF, typed 参数 如 果 设 为 True， 把 不 同 参数 类 型 

得 到 的 结果 分 开 保 存 ， 即 把 通常 认为 相等 的 浮 点 数 和 整数 参数 (如 1 和 1.9) 区 分 开 。 顺 

便 说 一 下 ， 因 为 Lru_cache 使 用 字典 存储 结果 ， 而 且 键 根据 调用 时 传 入 的 定位 参数 和 关键 

字 参 数 创建 ， 所 以 被 Lru_cache 装饰 的 函数 ， 它 的 所 有 参数 都 必须 是 可 散 列 的 。 


接 下 来 讨论 吸引 人 的 functools.singledispatch 装饰 器 


7.8.2 单 分 派 泛 函 数 


假设 我 们 在 开发 一 个 调试 Web 应 用 的 工具 ， 我 们 想 生 成 HTML， 显 示 不 同类 型 的 Python 
对 象 。 


我 们 可 能 会 编写 这 样 的 函数 : 


import html 




















def htmlize(obj): 
content = html.escape(repr(obj)) 
return '<pre>{}</pre>'.format(content) 


个 函数 适用 于 任何 Python 类 型 ， 但 是 现在 我 们 想 做 个 扩展 ， 让 它 使 用 特别 的 方式 显示 某 


些 类 型 。 


。 : 把 内 部 的 换行 符 替 换 为 '<br>\n'; 不 使 用 <pre>， 而 是 使 用 <p>. 
。 int: 以 十 进 制 和 十 六 进 制 显示 数字 。 
。 List: 输出 一 个 HIML 列表 ， 根 据 各 个 元 素 的 类 型 进行 格式 化 。 


我 们 想 要 的 行为 如 示例 7-20 所 示 。 


示例 7-20 生成 HIML 的 htmlize 函数 ， 调 整 了 儿 种 对 象 的 输 
>>> htmlize({1, 2, 3}) @ 
‘<pre>{1, 2, 3}</pre>' 
>>> htmlize(abs) 
'<pre>&lt;built-in function abs&gt;</pre>' 
>>> htmlize('Heimlich & Co.\n- a game') @ 
'<p>Heimlich &amp; Co.<br>\n- a game</p>' 
>>> htmlize(42) © 
'<pre>42 (Qx2a)</pre>' 
>>> print(htmlize(['alpha', 66, {3, 2, 1}])) @ 
<ul> 
<li><p>alpha</p></li> 
<li><pre>66 (0x42)</pre></li> 
<li><pre>{1, 2, 3}</pre></li> 
</ul> 


O 默认 情况 下 ， 在 <pre></pre> 中 显示 HTML 转 义 后 的 对 象 字符 串 表示 形式 。 














CE 











O A str 对 象 显示 的 也 是 HTML 转 义 后 的 字符 串 表 示 形 式 ， 不 过 放 在 <p></p> 中 ， 而 且 
使 用 <br> 表示 换行 。 

© int 显示 为 十 进 制 和 十 六 进 制 两 种 形式 ， 放 在 <pre></pre> 中 。 

O 各 个 列表 项 目 根据 各 自 的 类 型 格式 化 ， 整 个 列表 则 渲染 成 HTML 列表 。 


因为 Python 不 支持 重 载 方 法 或 函数 ， 所 以 我 们 不 能 使 用 不 同 的 签名 定义 htmLize 的 变 体 ， 
也 无 法 使 用 不 同 的 方式 处 理 不 同 的 数据 类 型 。 在 Python 中 ， 一 种 常见 的 做 法 是 把 htmlize 
变 成 一 个 分 派 国 数 ， 使 用 一 串 if/elif/elif, 调用 专门 的 函数 ， 如 htmlize_str、htmlize_ 
int， 等 等 。 这 样 不 便于 模块 的 用 户 扩展 ， 还 显得 笨拙 : 时 间 一 长 ， 分 派 函 数 htmlize BW 
得 很 大 ， 而 且 它 与 各 个 专门 函数 之 间 的 耦合 也 很 紧密 。 

Python 3.4 新 增 的 functools.singledispatch 装饰 器 可 以 把 整体 方案 拆 分 成 多 个 模块 ， 甚 
至 可 以 为 你 无 法 修改 的 类 提供 专门 的 函数 。 使 用 @singledispatch 装饰 的 普通 函数 会 变 成 
泛 函 数 (generic function) : 根据 第 一 个 参数 的 类 型 ， 以 不 同方 式 执行 相同 操作 的 一 组 函 
数 。 具体 做 法 参见 示例 7-21。 














functools.singledispatch 是 Python 3.4 增加 的 ，PyPI 中 的 singledispatch 
Æ, (https://pypi.python.org/pypi/singledispatch) 可 以 向 后 兼容 Python 2.6 到 
Python 3.3, 





示例 7-21 singledispatch 创建 一 个 自 定 义 的 htmlize.register 装饰 器 ， 把 多 个 函数 绑 
在 一 起 组 成 一 个 泛 函数 
from functools import singledispatch 
from collections import abc 


import numbers 
import html 


@singledispatch @ 

def htmlize(obj): 
content = html.escape(repr(obj)) 
return '<pre>{}</pre>'.format(content) 


@htmlize.register(str) @ 

def _(text): 
content = html.escape(text).replace('\n', '<br>\n') 
return '<p>{0}</p>'.format(content) 


@htmlize.register(numbers.Integral) @ 
def _(n): 
return '<pre>{0} (0x{0:x})</pre>'.format(n) 


@htmlize.register(tuple) @ 
@htmlize. register (abc.MutableSequence) 
def _(seq): 





注 4: BAM LEMAIR. MRS AEREE ST INRA, ABE BATIK T o 
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inner = '</li>\n<li>'.join(htmlize(item) for item in seq) 
return '<ul>\n<li>' + inner + '</li>\n</ul>' 


O @singledispatch 标记 处 理 object 类 型 的 基 国 数 。 

O 6741 HACE @«base_function».register(«type») 装饰 。 

O 专门 函数 的 名 称 无 关 紧要 ，_ 是 个 不 错 的 选择 ， 简 单 明 了 。 

O 为 每 个 需要 特殊 处 理 的 类 型 注册 一 个 函数 。numbers.Integral 是 int 的 虚拟 超 类 。 

O 可 以 又 放 多 个 register 装饰 器 ， 让 同一 个 函数 支持 不 同类 型 。 

只 要 可 能 ， 注 册 的 专门 函数 应 该 外 理 抽 象 基 类 (如 numbers. Integral 和 abc.MutableSequence) , 
不 要 处 理 具体 实现 (如 int 和 Tist)。 这 样 ， 代 码 支 持 的 兼容 类 型 更 广泛 。 例 如 ，Python 
扩展 可 以 子 类 化 numbers.Integral， 使 用 固定 的 位 数 实现 int 类 型 。 




















使 用 抽象 基 类 检查 类 型 ， 可 以 让 代码 支持 这 些 抽象 基 类 现 有 和 未 来 的 具体 子 
类 或 虚拟 子 类 。 抽 象 基 类 的 作用 和 虚拟 子 类 的 概念 在 第 11 章 讨论 。 








singledispatch 机 制 的 一 个 显著 特征 是 ， 你 可 以 在 系统 的 任何 地 方 和 任何 模块 中 注册 专门 
国 数 。 如 果 后 来 在 新 的 模块 中 定义 了 新 的 类 型 ， 可 以 轻松 地 添加 一 个 新 的 专门 函数 来 处 理 
那个 类 型 。 此 外 ， 你 还 可 以 为 不 是 自己 编写 的 或 者 不 能 修改 的 类 添加 自 定义 函数 。 
singledispatch 是 经 过 深思 熟 虑 之 后 才 添 加 到 标准 库 中 的 ， 它 提供 的 特性 很 多 ， 这 里 无 法 
一 一 说 明 。 这 个 机 制 最 好 的 文档 是 “PEP 443 一 Single-dispatch generic functions” (https:// 
www.python.org/dev/peps/pep-0443/)。 





























@singledispatch 不 是 为 了 把 Java 的 那 种 方法 重 载 带 入 Python。 在 一 个 类 
中 为 同一 个 方法 定义 多 个 重 载 变 体 ， 比 在 一 个 函数 中 使 用 一 长 串 if/elif/ 
elif/elif 块 要 更 好 。 但 是 这 两 种 方案 都 有 缺陷 ， 因 为 它们 让 代码 单元 〈 类 
或 图 数 ) 承担 的 职责 太 多 。@singtedispath 的 优点 是 支持 模块 化 扩展 : 各 个 
模块 可 以 为 它 支持 的 各 个 类 型 注册 一 个 专门 函数 。 






































装饰 器 是 函数 ， 因 此 可 以 组 合 起 来 使 用 ( 即 ， 可 以 在 已 经 被 装饰 的 函数 上 应 用 装饰 器 ， 如 
示例 7-21 所 示 )。 下 一 市 说 明 其 中 的 原理 。 


7.9 ”又 放 装 饰 器 

示例 7-19 演示 了 又 放 装 饰 器 的 方式 : @Lru_cache 应 用 到 @clock 装饰 fibonacci 得 到 的 结 
果 上 。 在 示例 7-21 中 ， 模 块 中 最 后 一 个 函数 应 用 了 两 个 @htmlize.register 装饰 器 。 

把 @d1 和 @d2 两 个 装饰 器 按 顺 序 应 用 到 f 函数 上 ， 作 用 相当 于 f = d1(d2(f))。 

也 就 是 说 ， 下 述 代码 : 











@d1 


@d2 
def f(): 
print('f') 
等 同 于 ， 
def f(): 
print('f') 


f = d1(d2(f)) 


BRT AICR titi ae Z Ib, ASHE FAB TILA RZS s, AA @Lru_cache() 和 示例 
7-21 中 @singledispatch 生成 的 htmLize.register(stype>)。 下 一 市 说 明 如 何 构建 接受 参数 
的 装饰 器 。 


7.10 ”参数 化 装饰 器 


解析 源码 中 的 装饰 器 时 ，Python 把 被 装饰 的 函数 作为 第 一 个 参数 传 给 装饰 器 函数 。 那 怎么 
让 装饰 器 接受 其 他 参数 呢 ? 答案 是 : 创建 一 个 装饰 器 工厂 函数 ， 把 参数 传 给 它 ， 返 回 一 个 
装饰 器 ， 然 后 再 把 它 应 用 到 要 装饰 的 函数 上 。 不 明白 什么 意思 ? 当然 。 下 面 以 我 们 见 过 的 
最 简单 的 装饰 器 为 例 说 明 : 示例 7-22 中 的 register。 


示例 7-22 示例 7-2 中 registration.py 模块 的 删 减 版 ， 这 里 再 次 给 出 是 为 了 便于 讲解 


registry = [] 





def register(func): 
print('running register(%s)' % func) 
registry. append( func) 
return func 


@register 
def f1(): 
print('running f1()') 


print('running main()') 
print('registry ->', registry) 
f1() 


7.10.1 一 个 参数 化 的 注册 装饰 器 

为 了 便于 启用 或 禁用 register 执行 的 国 数 注册 功能 ， 我 们 为 它 提供 一 个 可 选 的 active 参 
数 ， 设 为 False 时 ， 不 注册 被 装饰 的 函数 。 实 现 方式 参见 示例 7-23。 从 概念 上 看 ， 这 个 新 
的 register 函数 不 是 装饰 器 ， 而 是 装饰 器 工厂 函数 。 调 用 它 会 返回 真正 的 装饰 器 ， 这 才 是 
应 用 到 目标 函数 上 的 装饰 器 。 


示例 7-23 ”为 了 接受 参数 ， 新 的 register 装饰 器 必须 作为 函数 调用 


registry = set() @ 
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def register(active=True): @ 
def decorate(func): © 
print('running register (active=%s) ->decorate(%s)' 
% (active, func)) 
if active: @ 
registry.add(func) 
else: 
registry.discard(func) © 


return func @ 
return decorate @ 


@register(active=False) © 
def f1(): 
print('running f1()') 


@register() © 
def f2(): 
print('running f2()') 


def f3(): 
print('running 3()') 


O registry 现在 是 一 个 set 对 象 ， 这 样 添加 和 删除 函数 的 速度 更 快 。 

@ register 接受 一 个 可 选 的 关键 字 参 数 。 

© decorate 这 个 内 部 函数 是 真正 的 装饰 器 ;注意 ， 它 的 参数 是 一 个 函数 。 

O RẸ active 参数 的 值 ( 从 闭 包 中 获取 ) 是 True 时 才 注 册 func, 

O 如 果 active 不 为 真 ， 而且 func 在 registry 中 ， 那 么 把 它 删 除 。 

Q decorate 是 装饰 器 ， 必 须 返 回 一 个 国 数 。 

@ register 是 装饰 器 工厂 函数 ， 因 此 返回 decorate, 

O @register 工厂 函数 必须 作为 函数 调用 ， 并 且 传 人 所 需 的 参数 。 

O 即使 不 传 和 参数，register 也 必须 作为 函数 调用 (@register())， 即 要 返回 真正 的 装饰 


器 decorate, 
这 里 的 关键 是 ，register() 要 返回 decorate， 然 后 把 它 应 用 到 被 装饰 的 函数 上 。 
示例 7-23 中 的 代码 在 registration_param.py 模块 中 。 如 果 导 入 ， 得 到 的 结果 如 下 : 


>>> import registration_param 

running register(active=False)->decorate(<function f1 at 0x10063c1e0>) 
running register(active=True)->decorate(<function f2 at 0x10063c268>) 
>>> registration_param.registry 

{<function f2 at 0x10063c268>} 


注意 ， 只 有 f2 函数 在 registry 中 ; f1 不 在 其 中 ， 因 为 传 给 register 装饰 器 工厂 函数 的 参 
BOE active=False， 所 以 应 用 到 f1 上 的 decorate 没有 把 它 添加 到 registry H, 


如 果 不 使 用 @ 句 法 ， 那 就 要 像 常 规范 数 那 样 使 用 register; 若 想 把 f 添 加 到 registry 
中 ， 则 装饰 f 函数 的 名 法 是 register()(f); 不 想 添加 (或 把 它 删除 ) 的 话 ， 句 法 是 
register(active=False)(f)。 示 例 7-24 演示 了 如 何 把 函数 添加 到 registry 中 ， 以 及 如 何 
从 中 删除 函数 。 
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示例 7-24 使 用 示例 7-23 中 的 registration_param 模块 
>>> from registration_param import * 
running register (active=False) ->decorate(<function f1 at 0x10073c1e0>) 
running register (active=True)->decorate(<function f2 at 0x10073c268>) 
>>> registry #@ 
{<function f2 at 0x10073c268>} 
>>> register()(f3) #@ 
running register(active=True)->decorate(<function f3 at 0x10073c158>) 
<function f3 at 0x10073c158> 
>>> registry # © 
{<function f3 at 0x10073c158>, <function f2 at 0x10073c268>} 
>>> register(active=False)(f2) #@ 
running register(active=False) ->decorate(<function f2 at 0x10073c268>) 
<function f2 at 0x10073c268> 
>>> registry # @ 
{<function f3 at 0x10073c158>} 


O 导入 这 个 模块 时 ，f2 在 registry 中 。 

@ register() 表达 式 返 回 decorate， 然 后 把 它 应 用 到 f3 上 。 
© 前 一 行 把 f3 添加 到 registry 中 。 

O 这 次 调用 从 registry 中 删除 f2 

© 确认 registry 中 只 有 f3。 


参数 化 装饰 器 的 原理 相当 复杂 ， 我 们 刚刚 讨论 的 那个 比 大 多 数 都 简单 。 
会 把 被 装饰 的 函数 替换 掉 ， 而 且 结 构 上 需要 多 一 层 和 能 套 。 接 下 来 会 探讨 这 种 国 数 金 
7.10.2 ”参数 化 clock 装 饰 器 


eh clock 装饰 器 ， 为 它 添加 一 个 功能 :让 用 户 传 入 一 个 格式 字符 串 ， 控 制 被 装 
饰 国 数 的 输出 。 参 见 示例 7-25。 














为 了 简单 起 见 ， 示 例 7-25 基于 示例 7-15 中 最 初 实现 的 clock， 而 不 是 示例 
7-17 中 使 用 @functools.wraps 改进 后 的 版 本 ， 因 为 那 一 版 增加 了 一 层 函 数 。 











示例 7-25 clockdeco_param.py 模块 : 参数 化 clock 装饰 器 


import time 
DEFAULT_FMT = '[{elapsed:0.8f}s] {name}({args}) -> {result}! 


def clock(fmt=DEFAULT_FMT): @ 
def decorate(func): (2) 
def clocked(*_args): © 
tO = time.time() 
_result = func(*_args) @ 
elapsed = time.time() - tO 
name = func.__name__ 
args = ', '.join(repr(arg) for arg in _args) 日 
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result = repr(_result) O 
print(fmt.format(**locals())) @ 
return result O 
return clocked © 
return decorate @ 


1 1 


if _name == ' main_': 


@clock() @ 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


O clock 是 参数 化 装饰 器 工厂 函数 。 

@ decorate 是 真正 的 装饰 器 。 

© clocked 包装 被 装饰 的 函数 。 

© _result 是 被 装饰 的 函数 返回 的 真正 结果 。 

加 _args 是 clocked 的 参数 ，args 是 用 于 显示 的 字符 串 。 

@ result 是 _result 的 字符 申 表示 形式 ， 用 于 显示 。 

O 这 里 使 用 **locals() Æ% T Æ fmt 中 引用 clocked 的 局 部 变量 。 

O clocked 会 取代 被 装饰 的 函数 ， 因 此 它 应 该 返回 被 装饰 的 函数 返回 的 值 。 
© decorate 返回 clocked, 

@ clock 返回 decorate, 


OD 在 这 个 模块 中 测试 ， 不 传人 参数 调用 clock()， 因 此 应 用 的 装饰 器 使 用 默认 的 格式 stro 
在 shell 中 运行 示例 7-25， 会 得 到 下 述 结果 : 


$ python3 clockdeco_param. py 

[0.12412500s] snooze(@.123) -> None 
[0.12411904s] snooze(@.123) -> None 
[0.12410498s] snooze(@.123) -> None 


示例 7-26 和 示例 7-27 是 另外 两 个 模块 ， 它 们 使 用 了 clockdeco_paran 模块 中 的 新 功能 ， 随 
后 是 两 个 模块 输出 的 结果 。 
































示例 7-26 clockdeco_param_demo1.py 
import time 
from clockdeco_param import clock 


@clock('{name}: {elapsed}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


示例 7-26 的 输出 : 





$ python3 clockdeco_param_demo1.py 
snooze: 0.12414693832397461s 
snooze: 0.1241159439086914s 
snooze: 0.12412118911743164s 


示例 7-27 clockdeco_param_demo2.py 
import time 
from clockdeco_param import clock 


@clock('{name}({args}) dt={elapsed:0.3f}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


示例 7-27 的 输出 : 


$ python3 clockdeco_param_demo2.py 
snooze(0.123) dt=0.124s 
snooze(0.123) dt=0.124s 
snooze(0.123) dt=0.124s 


受 本 书 篇 幅 限 制 ， 我 们 对 装饰 器 的 探讨 到 此 结束 。 延 伸 阅 读 中 的 资料 讨论 了 构建 工业 级 装 
饰 器 的 技术 ， 尤 其 是 Graham Dumpleton 的 博客 和 wrapt 模块 。 


Graham Dumpleton 和 Lennart Regebro (本 书 的 技术 审 校 之 一 ) 认为 ， 装 饰 器 
最 好 通过 实现 cal 方法 的 类 实现 ， 不 应 该 像 本 章 的 示例 那样 通过 函数 实 
现 。 我 同意 使 用 他 们 建议 的 方式 实现 非 平 几 的 装饰 器 更 好 ， 但 是 使 用 函数 解 
说 这 个 语言 特性 的 基本 思想 更 易于 理解 。 









































7.11 本 章 小 结 


本 章 介 绍 了 很 多 基础 知识 ， 虽 然 学 习 之 路 崎 民 不 平 ， 我 还 是 尽 可 能 让 路 途 平 坦 顺 畅 。 毕 
竟 ， 我 们 已 经 进入 元 编程 领域 了 。 

开始 ， 我 们 先 编写 了 一 个 没有 内 部 函数 的 @register 装饰 器 ， 最 后 ， 我 们 实现 了 有 两 层 骨 
套 函 数 的 参数 化 装饰 器 @clock()。 

尽管 注册 装饰 器 在 多 数 情况 下 都 很 简单 ， 但 是 在 高 级 的 Python 框架 中 却 有 用 武之 地 。 我 们 
使 用 注册 方式 对 第 6 章 的 “策略 ”模式 做 了 重 构 。 

参数 化 装饰 器 基本 上 都 涉及 至 少 两 层 藤 套 函 数 ， 如 果 想 使 用 @functools.wraps 生成 装饰 
器 ， 为 高 级 技术 提供 更 好 的 支持 ， 骨 套 层级 可 能 还 会 更 深 ， 比 如 前 面 简 要 介绍 过 的 又 放 装 
饰 器 。 

我 们 还 讨论 了 标准 库 中 functools 模块 提供 的 两 个 出 色 的 函数 装饰 器 : @lru_cache() 和 
@singledispatch, 
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若 想 真正 理解 装饰 器 ， 需 要 区 分 导入 时 和 运行 时 ， 还 要 知道 变量 作用 域 、 闭 包 和 新 增 的 
nonlocal 声明 。 掌 握 闭 包 和 nonlocal 不 仅 对 构建 装饰 器 有 帮助 ， 还 能 协助 你 在 构建 GUI 
程序 时 面向 事件 编程 ， 或 者 使 用 回调 处 理 异步 TO。 


7.12 延伸 阅读 


«Python Cookbook (第 3 fk) 中 文 版 》(David Beazley 和 Brian K. Jones 3) 的 第 9 章 “ 元 
编程 ”有 几 个 诀窍 构建 了 基本 的 装饰 器 和 特别 复杂 的 装饰 器 。 其 中 ,“9.6 定义 一 个 能 接收 
可 选 参数 的 装饰 器 ”一 节 中 的 装饰 器 可 以 作为 常规 的 装饰 器 调用 ， 也 可 以 作为 装饰 器 工厂 
函数 调用 ， 例 如 @clock BK @clock(), 

Graham Dumpleton 写 了 一 系列 博客 文章 (https://github.com/GrahamDumpleton/wrapt/blob/ 
develop/blog/README.md) ， 深 入 剖析 了 如 何 实现 行为 恨 好 的 装饰 器 ， 第 一 篇 是 “How You 
Implemented Your Python Decorator is Wrong” (https://github.com/GrahamDumpleton/wrapt/ 



























































blob/develop/blog/01-how-you-implemented-your-python-decorator-is-wrong.md), {th Æ x 77 mi 
的 深厚 知识 充分 体现 在 在 他 编写 的 wrapt 模块 (http://wrapt.readthedocs.org/en/latest/) 中 。 这 
个 模块 的 作用 是 简化 装饰 器 和 动态 函数 包装 器 的 实现 ， 即 使 多 层 装 饰 也 支持 内 省 ， 而 且 行 
为 正确 ， 既 可 以 应 用 到 方法 上 ， 也 可 以 作为 描述 符 使 用 。( 描 述 符 在 本 书 第 20 章 讨论 。) 

Michele Simionato 开发 了 一 个 包 ， 根 据 文档 ， 它 则 在 “简化 普通 程序 员 使 用 装饰 器 的 方式 ， 


并 且 通 过 各 种 复杂 的 示例 推广 装饰 器 >"。 这 个 包 是 decorator (https://pypi.python.org/pypi/ 
decorator) ， 可 通过 PyPI 安装 。 








Python Decorator Library 维基 页 面 (https://wiki.python.org/moin/PythonDecoratorLibrary) 在 
Python 刚 添 加 装饰 器 这 个 特性 时 就 创建 了 ， 里 面 有 很 多 示例 。 由 于 那个 页 面 是 几 年 前 开始 
编写 的 ， 有 些 技术 已 经 过 时 了 ， 不 过 仍 是 很 棒 的 灵感 来 源 。 


PEP 443 (http:/Avww.python.org/dev/peps/pep-0443/) 对 单 分 派 泛 函 数 的 基本 原理 和 细节 
做 了 说 明 。Guido van Rossum 很 久 以 前 (2005 年 3 月 ) 写 的 一 篇 博客 文章 “Five-Minute 
Multimethods in Python” (http://www.artima.com/weblogs/viewpost.jsp?thread=101605) 详细 
说 明了 如 何 使 用 装饰 器 实现 泛 函 数 (也 叫 多 方法 )。 他 给 出 的 代码 支持 多 分 派 ( 即 根据 多 
个 定位 参数 进行 分 派 )。Guido 写 的 多 方法 代码 很 棒 ， 但 那 只 是 教学 示例 。 如 果 想 使 用 现代 
的 技术 实现 多 分 派 泛 函数 ， 并 支持 在 生产 环境 中 使 用 ， 可 以 用 Martijn Faassen 开发 的 Reg 
(http://reg.readthedocs.io/en/latest/)。Martijn 还 是 模型 驱动 型 REST 式 Web 框架 Morepath 
(http://morepath.readthedocs.org/en/latest/) 的 开发 者 。 















































Fredrik Lundh 写 的 一 篇 短文 “Closures in Python” (http://effbot.org/zone/closure.htm) 解说 
了 闭 包 这 个 术语 。 

“PEP 3104 一 Access to Names in Outer Scopes” (http://www.python.org/dev/peps/pep-3104/) 
说 明了 引入 nonlocal 声明 的 原因 : 重新 绑 定 既 不 在 本 地 作用 域 中 也 不 在 全 局 作用 域 中 的 名 
称 。 这 份 PEP 还 概述 了 其 他 动态 语言 (Perl、Ruby、JavaScript， 等 等 ) 解决 这 个 问题 的 方 
式 ， 以 及 Python 中 可 用 设计 方案 的 优 缺 点 。 





“PEP 227—Statically Nested Scopes” (http://www.python.org/dev/peps/pep-0227/) 更 偏重 
于 理论 ， 说 明了 Python 2.1 引入 的 词法 作用 域 。 词 法 作用 域 在 这 一 版 里 是 一 种 方案 ， 到 
Python 2.2 就 变 成 了 标准 。 此 外 ， 这 份 PEP 还 说 明了 Python 中 闭 包 的 基本 原理 和 实现 方式 
的 选择 。 












































任何 把 函数 当 作 一 等 对 象 的 语言 ， 它 的 设计 者 都 要 面 对 一 个 问题 : AFM RNY 
数 在 某 个 作用 域 中 定义 ， 但 是 可 能 会 在 其 他 作用 域 中 调用 。 问 题 是 ， 如 何 计算 自由 变 
E? 首先 出 现 的 最 简单 的 处 理 方 式 是 使 用 “动态 作用 域 ”。 也 就 是 说 ， 根 据 函 数 调用 所 
在 的 环境 计算 自由 变量 。 


如 果 Python 使 用 动态 作用 域 ， 不 支持 闭 包 ,那么 avg (与 示例 7-9 RM) 可 以 写成 这 样 : 


>>> HH 这 不 是 真实 的 Python 控制 台 会 话 ! A 
>>> avg = make_averager() 
>>> series = [] # 

>>> avg(10) 

10.0 

>>> avg(11) #@ 

10.5 

>>> avg(12) 

11.0 

>>> series = [1] #0 
>>> avg(5) 

3.0 


@O 使 用 avg 之 前 要 自己 定义 series = []， 因 此 我 们 必须 知道 averager (在 make_ 
averager 内 部 ) 引用 的 是 一 个 列表 。 

O 在 背后 使 用 series 累计 要 计 入 平均 值 的 值 。 

© 执行 series = [1] 后 ,之 前 的 列表 消失 了 。 同 时 计算 两 个 独立 的 移动 平均 值 时 可 能 
会 发 生 这 种 意外 。 


澶 数 应 该 是 黑金 ， 把 实现 隐藏 起 来 ， 不 让 用 户 知 道 。 但 是 对 动态 作用 域 来 说 ， 如 果 
函数 使 用 自由 变量 ， 程 序 员 必须 知道 函数 的 内 部 细节 ， 这 样 才能 搭建 正确 运行 所 需 
的 环境 。 

另 一 方面 ， 动 态 作 用 域 易 于 实现 ， 这 可 能 就 是 John McCarthy 创建 Lisp (第 一 门 把 
鸣 数 视 作 一 等 对 象 的 语言 ) 时 采用 这 种 方式 的 原因 。Paul Graham 写 的 “The Roots of 
Lisp” 一 文 (http://www.paulgraham.com/rootsoflisp.html) 对 John McCarthy 关于 Lisp 
语言 那 篇 论文 ("Recursive Functions of Symbolic Expressions and Their Computation by 


























Machine, Part I”, http://www-formal.stanford.edu/jme/recursive/recursive.html) 做 了 通俗 
易 懂 的 解说 。McCarthy 那 篇 论 文 是 和 贝多 芬 第 九 交响 曲 一 样 伟大 的 杰作 。Paul Graham 
使 用 通俗 易 懂 的 语言 翻译 了 那 篇 论文 ， 把 数学 原理 转换 成 了 英语 和 可 运行 的 代码 。 

Paul Graham 的 注解 还 指出 动态 作用 域 难 以 实现 。 下 面 这 段 文 字 引 自 “The Roots of 
Lisp” 一 文 : 














函数 装饰 器 和 闭 包 | 179 





就 连 第 一 个 Lisp 高 阶 函 数 示例 都 因为 动态 作用 域 而 无 法 运行 ， 这 充分 证 明了 动 
态 作 用 域 的 危险 性 。McCarthy 在 1960 年 可 能 没有 全 面 认识 到 动态 作用 域 的 影 
响 。 动 态 作 用 域 在 各 种 Lisp 实现 中 存在 的 时 间 特 别 长 ， 直 到 Sussman 和 Steele 
在 1975 年 开发 出 Scheme 为 止 。 词法 作用 域 不 会 把 eval 的 定义 变 得 多 么 复杂 ， 
只 是 编译 器 可 能 更 难 编 写 。 
如 今 ， 词 法 作用 域 已 成 常态 : 根据 定义 函数 的 环境 计算 自由 变量 。 词 法 作用 域 让 人 更 
难 实 现 支持 一 等 函数 的 语言 ， 因 为 需要 支持 团 包 。 不 过 ， 词 法 作用 域 让 代码 更 易于 阅 
读 。Algol 之 后 出 现 的 语言 大 都 使 用 词法 作用 域 。 


多 年 来 ，Python 的 lambda 表达 式 不 支持 闭 包 ， 因 此 在 博客 图 的 函数 式 编程 极 客 群 体 
中 ， 这 个 特性 的 名 上 声 并 不 好 。Python 2.2 (2001 年 12 ARR) 修正 了 这 个 问题 ， 但 是 
博客 圈 的 固有 印象 不 会 轻易 转变 。 自 此 之 后 ， 仅 仅 由 于 身 法 上 的 局 限 ，lambda 一 直 处 
于 址 从 的 境地 。 


Python 装饰 器 和 装饰 器 设计 模式 


Python 函数 装饰 器 符合 Gamma 等 人 在 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 
书 中 对 “装饰 器 ”模式 的 一 般 描述 :“ 动 态 地 给 一 个 对 象 添加 一 些 额 外 的 职责 。 就 扩展 
功能 而 言 ， 装 饰 器 模式 比 子 类 化 更 灵活 。” 


在 实现 层面 ，Python 装饰 器 与 “装饰 器 ”设计 模式 不 同 ， 但 是 有 些 相似 之 处 。 


在 设计 模式 中 ，Decorator 和 Component 是 抽象 类 。 为 了 给 具体 组 件 添加 行为 ， 有 具体 装 
饰 器 的 实例 要 包装 具体 组 件 的 实例 。 《设计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 是 
这 样 说 的 : 
装饰 器 与 它 所 装饰 的 组 件 接口 一 致 ， 因 此 它 对 使 用 该 组 件 的 客户 透明 。 它 将 客 
户 请 求 转发 给 该 组 件 ， 并 且 可 能 在 转发 前 后 执行 一 些 额 外 的 操作 (例如 绘制 一 
个 边框 )。 透 明 性 使 得 你 可 以 递归 误 套 多 个 装饰 器 ， 从 而 可 以 添加 任意 多 的 功 
能 。( 第 115 页 ) 


在 Python 中 ， 装 饰 器 函数 相当 于 Decorator 的 具体 子 类 ， 而 装饰 器 返回 的 内 部 函数 相 
当 于 装饰 器 实例 。 返 回 的 沪 数 包装 了 被 装饰 的 济 数 ， 这 相当 于 “装饰 器 ”设计 模式 中 
的 组 件 。 返 回 的 隙 数 是 迁 明 的 ， 因 为 它 接受 相同 的 参数 ， 符 合 组 件 的 接口 。 返 回 的 澡 
数 把 调用 转发 给 组 件 ， 可 以 在 转发 前 后 执行 额外 的 操作 。 因 此 ， 前 面 引 用 那 段 话 的 最 
后 一 句 可 以 改 成 :“ 透 明 性 使 得 你 可 以 递归 嵌 套 多 个 装饰 器 ， 从 而 可 以 添加 任意 多 的 行 
A.” 这 就 是 登 放 装 饰 器 的 理论 基础 。 

注意 ， 我 不 是 建议 在 Python 程序 中 使 用 肠 数 装饰 器 实现 “装饰 器 ”模式 。 在 特定 情况 
下 确实 可 以 这 么 做 ， 但 是 一 般 来 说 ， 实 现 “ 装 饰 器 ”模式 时 最 好 使 用 类 表示 装饰 器 和 
要 包装 的 组 件 。 











第 四 部 分 





面向 对 象 惯用 法 


第 8 和 章 


对 象 引 用 、 可 变性 和 垃圾 回收 





“你 不 开心 ,” 自 骑士 用 一 种 忧 虐 的 声调 说 ,，“ 让 我 给 你 唱 一 首 歌 安慰 你 吧 …… 这 首 歌 
a SVE: (RR HRA)” 


“ 蛾 ， 那 是 一 首 歌 的 曲名 ， 是 吗 ? ”爱丽 丝 问 道 ， 她 试 着 使 自己 感到 有 兴趣 。 


“不 ， 你 不 明白 ,” 白 骑士 说 ， 看 来 有 些 心 烦 的 样子 ,“ 那 是 人 家 这 么 叫 的 曲名 。 真 正 
的 曲名 是 《 老 而 又 老 的 老头 儿 》。” (改编 自 第 8 章 “ 这 是 我 自己 的 发 明 。) 





Lewis Carroll 
《爱丽 丝 镜 中 奇遇 记 》 

爱丽 丝 和 和 白 骑 士 为 本 章 要 讨论 的 内 容 定 了 基调 。 本 章 的 主题 是 对 象 与 对 象 名 称 之 间 的 区 

别 。 名 称 不 是 对 象 ， 而 是 单独 的 东西 。 

本 章 先 以 一 个 比喻 说 明 Python 的 变量 : 变量 是 标注 ， 而 不 是 合子。 如果 你 不 知道 引用 式 变 

量 是 什么 ， 可 以 像 这 样 对 别人 解释 别名 。 

然后 ， 本 章 讨 论 对 象 标识 、 值 和 别名 等 概念 。 随 后 ， 本 章 会 揭露 元 组 的 一 个 神奇 特性 : 元 

组 是 不 可 变 的 ， 但 是 其 中 的 值 可 以 改变 ， 之 后 就 引申 到 浅 复制 和 深 复 制 。 接 下 来 的 话题 是 

引用 和 函数 参数 ， 可 变 的 参数 默认 值 导致 的 问题 ， 以 及 如 何 安 全 地 处 理 函 数 的 调用 者 传 入 

的 可 变 参 数 。 

本 章 最 后 一 市 讨论 垃圾 回收 、del 命令 ， 以 及 如 何 使 用 弱 引 用 “ 记 住 ”对 象 ， 而 无 需 对 象 

本 身 存 在 。 

本 章 的 内 容 有 点 儿 枯 燥 ， 但 是 这 些 话题 却 是 解决 Python 程序 中 很 多 不 易 察 觉 的 bug 的 关键 。 

首先 ， 我 们 要 抛弃 变量 是 存储 数据 的 盒子 这 一 错误 观念 。 
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a 
8.1 变量 不 是 盒子 
1997 年 夏天 ， 我 在 MIT 学 了 一 门 Java 课程 。Lynn Andrea Stein 教授 (一 位 获奖 的 计算 机 
科学 教育 工作 者 ， 目 前 在 欧 林 工 程 学 院 教书 ) 指出 ， 人 们 经 常 使 用 “变量 是 盒子 ”这 样 的 
比喻 ， 但 是 这 有 但 于 理解 面向 对 象 语言 中 的 引用 式 变量 。Python 变量 类 似 于 Java 中 的 引用 
式 变量 ， 因 此 最 好 把 它们 理解 为 附加 在 对 象 上 的 标注 。 
在 示例 8-1 所 示 的 交互 式 控 制 台 中 ， 无 法 使 用 “变量 是 盒子 ”做 解释 。 图 8-1 说 明了 在 
Python 中 为 什么 不 能 使 用 盒子 比喻 ， 而 便利 贴 则 指出 了 变量 的 正确 工作 方式 。 


示例 8-1 变量 a 和 b3 引 用 同一 个 列表 ， 而 不 是 那个 列表 的 副本 
>>> a = [1, 2, 3] 
>>> b=a 
>>> a.append(4) 
>>> b 


[1, 2, 35 4] 















































图 8-1: 如 果 把 变量 想象 为 盒子 ， 那 么 无 法 解释 Python 中 的 赋值 ， 应 该 把 变量 视 作 便利 贴 ， 这 样 示 
例 8-1 中 的 行为 就 好 解释 了 


Stein 教授 还 反复 讲解 了 赋值 方式 。 例 如 讲 到 seesaw 对 象 时 ， 她 会 说 “把 变量 s 分 配给 
seesaw”， 绝 不 会 说 “把 seesaw 分 配给 变量 s 。 对 引用 式 变量 来 说 ， 说 把 变量 分 配给 对 象 
更 合理 ， 反 过 来 说 就 有 问题 。 毕 竞 ， 对 象 在 赋值 之 前 就 创建 了 。 示 例 8-2 证 明 赋值 语句 的 
右边 先 执 行 。 


示例 8-2 创建 对 象 之 后 才 会 把 变量 分 配给 对 象 
>>> class Gizmo: 
def _ init__(self): 
print('Gizmo id: %d' % id(self)) 























>>> x = Gizmo() 
Gizmo id: 4301489152 @ 
>>> y = Gizmo() * 10 @ 
Gizmo id: 4301489432 © 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
TypeError: unsupported operand type(s) for *: 'Gizmo' and ‘int' 
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>>> 


>>> dir() @ 
['Gizmo', '__builtins__', '_ doc ', '__loader__', '__name_', 


__package__', '__spec__', 'x'] 


@ 输出 的 Gizmo id: ... 是 创建 Gizmo 实例 的 副作用 。 

O 在 乘法 运算 中 使 用 Gizmo 实例 会 抛 出 异常 。 

O 这 里 表明 ， 在 尝试 求 积 之 前 其 实 会 创建 一 个 新 的 Gizmo 实例 。 

@ 但 是 ， 肯 定 不 会 创建 变量 y， 因 为 在 对 赋值 语句 的 右边 进行 求 值 时 抛 出 了 异常 。 


为 了 理解 Python 中 的 赋值 语句 ， 应 该 始终 先 读 右 边 。 对 象 在 右边 创建 或 获 
取 ， 在 此 之 后 左边 的 变量 才 会 绑 定 到 对 象 上 ， 这 就 像 为 对 象 贴 上 标注 。 忘 掉 
盒子 吧 ! 























DH 


参见 下 一 市 。 


8.2 标识、 相等 性 和 别名 


因为 变量 只 不 过 是 标注 ， 所 以 无 法 阻止 为 对 象 贴 上 多 个 标注 。 贴 的 多 个 标注 ， 就 是 别名 。 


Lewis Carroll 是 Charles Lutwidge Dodgson 教授 的 笔名 。Carroll 先生 指 的 就 是 Dodgson 教 


授 ， 二 者 是 同一 个 人 人。 示例 8-3 用 Python 表达 了 这 个 概念 。 
示例 8-3 charles 和 lewis 指 代 同 一 个 对 象 


>>> charles = {'name': 'Charles L. Dodgson', 'born': 1832} 
>>> lewis = charles @ 

>>> Lewis is charles 

True 

>>> id(charles), id(lewis) @ 

(4300473992, 4300473992) 

>>> lewis['balance'] = 950 © 

>>> charles 

{'name': 'Charles L. Dodgson', 'balance': 950, 'born': 1832} 


@ lewis 是 charles 的 别名 。 
O is 运算 符 和 id 函数 确认 了 这 一 点 。 
© 向 lewis 中 添加 一 个 元 素 相当 于 向 charles 中 添加 一 个 元 素 。 





而 ， 假 如 有 冒充 者 (姑且 叫 他 Alexander Pedachenko 博士 ) AEF 1832 年 ， 声 称 他 是 
Charles L. Dodgson。 这 个 冒充 者 的 证 件 可 能 一 样 ， 但 是 Pedachenko 博士 不 是 Dodgson 教 





授 。 这 种 情况 如 图 8-2 所 示 。 























图 8-2: charles 和 lewis 绑 定 同一 个 对 象 ，atex 绑 定 另 一 个 具有 相同 内 容 的 对 象 





示例 8-4 实现 并 测试 了 图 8-2 中 那个 alex 对 象 。 


示例 8-4 alex 与 charles 比较 的 结果 是 相等 ， 但 alex 不 是 charles 
>>> alex = {'name': 'Charles L. Dodgson', 'born': 1832, 'balance': 950} © 











>>> alex == charles @ 
True 

>>> alex is not charles @ 
True 


Q alex 指 代 的 对 象 与 赋值 给 charles 的 对 象 内 容 一 样 。 
O 比较 两 个 对 象 ， 结 果 相 等 ， 这 是 因为 dict 类 的 eq 方法 就 是 这 样 实现 的 。 
O 但 它们 是 不 同 的 对 象 。 这 是 Python 说 明 标识 不 同 的 方式 : a is not b, 
示例 8-3 体现 了 别名 。 在 那 段 代码 中 ，lewis 和 charles 是 别名 ， 即 两 个 变量 绑 定 同一 个 对 
象 。 而 alex 不 是 charles 的 别名 ， 因 为 二 者 绑 定 的 是 不 同 的 对 象 。atex 和 charles She HY 
对 象 具有 相同 的 值 (== 比较 的 就 是 值 )， 但 是 它们 的 标识 不 同 。 
Python 语言 参考 手册 中 的 “3.1 Objects, values and types” 一 节 (https://docs.python.org/3/ 
reference/datamodel.html#objects-values-and-types) 说 道 : 
每 个 变量 都 有 标识 、 类 型 和 值 。 对 象 一 旦 创建 ， 它 的 标识 绝 不 会 变 ; 你 可 以 把 标识 
理解 为 对 象 在 内 存 中 的 地 址 。is 运算 符 比 较 两 个 对 象 的 标识 ; id() 函数 返回 对 象 标 
识 的 整数 表示 。 
WR ID 的 真正 意义 在 不 同 的 实现 中 有 所 不 同 。 在 CPython 中 ，id() 返回 对 象 的 内 存 地 址 ， 
但 是 在 其 他 Python 解释 嚣 中 可 能 是 别 的 值 。 关 键 是 ，ID 一 定 是 唯一 的 数值 标注 ， 而 且 在 
对 象 的 生命 周期 中 绝 不 会 变 。 
其 实 ， 编程 中 很 少 使 用 td() 函数 。 标 识 最 常 使 用 is 运算 符 检查 ， 而 不 是 直接 比较 ID。 接 
下 来 讨论 ts 和 == 的 异同 。 


8.2.1 在 == 和 is 之 间 选 择 
== 运算 符 比较 两 个 对 象 的 值 (对 象 中 保存 的 数据 )， 而 ts 比较 对 象 的 标识 。 
通常 ， 我 们 关注 的 是 值 ， 而 不 是 标识 ， 因 此 Python 代码 中 == 出 现 的 频率 比 ts 高 。 
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然而 ， 在 变量 和 单 例 值 之 间 比 较 时 ， 应 该 使 用 is。 目 前 ， 最 常 使 用 is 检查 变量 绑 定 的 值 
是 不 是 None。 下 面 是 推荐 的 写法 : 

x is None 
否定 的 正确 写法 是 : 

x is not None 


is 运算 符 比 == 速度 快 ， 因 为 它 不 能 重 载 ， 所 以 Python 不 用 寻找 并 调用 特殊 方法 ， 而 是 直 

接 比 较 两 个 整数 ID。 而 a == b 是 语法 糖 ， 等 同 于 a._ eq_(b)。 继 承 自 object 的 _eq_ 

方法 比较 两 个 对 象 的 站， 结果 与 is 一 样 。 但 是 多 数 内 置 类 型 使 用 更 有 意义 的 方式 覆盖 了 

eq_ 方法 ,会 考虑 对 象 属性 的 值 。 相 等 性 测试 可 能 涉及 大 量 处 理工 作 ， 例 如 ， 比 较 大 型 
集合 或 幅 套 层级 深 的 结构 时 。 


在 结束 对 标识 和 相等 性 的 讨论 之 前 ， 我 们 来 看 看 著名 的 不 可 变 类 型 tuple (元 组 )， 它 没有 
你 想象 的 那么 一 成 不 变 。 


8.2.2 元 组 的 相对 不 可 变性 


元 组 与 多 数 Python 集合 (列表 、 字 典 、 集 ， 等 等 ) 一 样 ， 保 存 的 是 对 象 的 引用 。 如 果 引 
用 的 元 素 是 可 变 的 ， 即 便 元 组 本 身 不 可 变 ， 元 素 依然 可 变 。 也 就 是 说 ， 元 组 的 不 可 变性 其 
实 是 指 tuple 数据 结构 的 物理 内 容 ( 即 保 存 的 引用 ) 不 可 变 ， 与 引用 的 对 象 无 关 。 


示例 8-5 表明 ， 元 组 的 值 会 随 着 引用 的 可 变 对 象 的 变化 而 变 。 元 组 中 不 可 变 的 是 元 素 的 
标识 。 


示例 8-5 ”一 开始 ，t1 和 t2 相等 ， 但 是 修改 tl 中 的 一 个 可 变 元 素 后 ， 二 者 不 相等 了 
>>> t1 = (1, 2, [30, 40]) © 
>>> t2 = (1, 2, [30, 40]) @ 
>>> tl = t2 © 
True 
>>> id(ti[-1]) @ 
4302515784 
>>> ti[-1].append(99) @ 
>>> t1 
(1, 2, [30, 40, 99]) 
>>> id(ti[-1]) @ 
4302515784 
>>> tl == t2 @ 

False 


O tl 不 可 变 ， 但 是 tl[-1] 可 变 。 

O 构建 元 组 t2， 它 的 元 素 与 tl 一 样 。 

© 虽然 tl 和 t2 是 不 同 的 对 象 ， 但 是 二 者 相等 一 一 与 预期 相符 。 
O 查看 t1[-1] 列表 的 标识 。 


































































































注 1: 而 str、bytes 和 array.array 等 单一 类 型 序列 是 扁平 的 ， 它 们 保存 的 不 是 引用 ， 而 是 在 连续 的 内 存 中 
保存 数据 本 身 〈 字 符 、 字 节 和 数字 ) 。 





© 就 地 修改 t1[-1] 列表 。 
O t1[-1] 的 标识 没 变 ， 只 是 值 变 了 。 
O 现在 ，t1 和 t2 不 相等 。 


元 组 的 相对 不 可 变性 解释 了 2.6.1 节 的 谜 题 。 这 也 是 有 些 元 组 不 可 散 列 (参见 3.1 市 中 的 
“什么 是 可 散 列 的 数据 类 型 ”附注 栏 ) 的 原因 。 


复制 对 象 时 ， 相 等 性 和 标识 之 间 的 区 别 有 更 深 入 的 影响 。 副 本 与 源 对 象 相 等 ， 但 是 ID 不 
同 。 可 是 ， 如 果 对 象 中 包含 其 他 对 象 ， 那 么 应 该 复制 内 部 对 象 吗 ?可 以 共享 内 部 对 象 吗 ? 
这 些 问 题 没 有 唯一 的 答案 。 参 见 下 述 讨论 。 


8.3 默认 做 浅 复制 
复制 列表 (或 多 数 内 置 的 可 变 集 合 ) 最 简单 的 方式 是 使 用 内 置 的 类 型 构造 方法 。 例 如 : 


>>> 11 = [3, [55, 44], (7, 8, 9)] 
>>> 12 = List(L1) © 

>>> 12 

[3, [55, 44], (7, 8, 9)] 

>>> 12 == 11 @ 

True 

>>> l2 is U © 

False 


@ list(11) 创建 11 的 副本 。 

O 副本 与 源 列 表 相 等 。 

O 但 是 二 者 指 代 不 同 的 对 象 。 

对 列表 和 其 他 可 变 序列 来 说 ， 还 能 使 用 简洁 的 12 = L1[:] 语句 创建 副本 。 

然而 ， 构 造 方法 或 [:] 做 的 是 浅 复 制 ( 即 复制 了 最 外 层 容 器 ， 副 本 中 的 元 素 是 源 容器 中 元 
素 的 引用 )。 如 果 所 有 元 素 都 是 不 可 变 的 ， 那 么 这 样 没有 问题 ， 还 能 市 省 内 存 。 但 是 ， 如 
果 有 可 变 的 元 素 ， 可 能 就 会 导致 意 想不到 的 问题 。 

在 示例 8-6 中 ， 我 们 为 一 个 包含 另 一 个 列表 和 一 个 元 组 的 列表 做 了 浅 复 制 ， 然 后 做 了 些 修 
改 ， 看 看 对 引用 的 对 象 有 什么 影响 。 


如 果 你 手头 有 联网 的 电脑 ， 我 强烈 建议 你 在 Python Tutor 网 站 (http://www. 
pythontutor.com) 中 查看 示例 8-6 的 交互 式 动画 。 写 作 本 书 时 ， 无 法 直接 链 
接 pythontutor.com 中 准备 好 的 示例 ， 不 过 这 个 工具 很 出 色 ， 因 此 值得 花 点 时 
间 复 制 粘贴 代码 。 






























































示例 8-6 ”为 一 个 包含 另 一 个 列表 的 列表 做 浅 复 制 ， 把 这 段 代码 复制 粘贴 到 Python Tutor 
网 站 中 ， 看 看 动画 效果 
L1 = [3, [66, 55, 44], (7, 8, 9)] 
12 = list(11) #0 
L1.append(100) #@ 
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11[1].remove(55) # © 
print('li:', 11) 
print('l2:', 12) 
12[1] += [33, 22] #@ 
12[2] += (10, 11) #6 
print('li:', 11) 
print('l2:', 12) 


O U4 是 1 的 浅 复 制 副本 。 此 时 的 状态 如 图 8-3 所 示 。 

@ 4E 100 追加 到 11 中， 对 12 没有 影响 。 

© 把 内 部 列表 L1[1] 中 的 55 删除 。 这 对 12 有 影响 ， 因 为 12[1] 绑 定 的 列表 与 11[1] 是 同 
=, 

O 对 可 变 的 对 象 来 说 ， 如 12[1] 引用 的 列表 ，+= 运算 符 就 地 修改 列表 。 这 次 修改 在 11[1] 
中 也 有 体现 ， 因 为 它 是 12[1] 的 别名 。 

O 对 元 组 来 说 ，+= 运算 符 创 建 一 个 新 元 组 ， 然 后 重新 绑 定 给 变量 12[2]。 这 等 同 于 12[2] = 
12[2] + (10，11)。 现 在 ，L1 和 12 中 最 后 位 置 上 的 元 组 不 是 同一 个 对 象 。 如 图 8-4 所 示 。 


示例 8-6 的 输出 在 示例 8-7 中 ， 对 象 的 最 终 状 态 如 图 8-4 所 示 。 
示例 8-7 示例 8-6 的 输出 


li: [3, [66, 44], (7, 8, 9), 100] 

12: [3, [66, 44], (7, 8, 9)] 

li: [3, [66, 44, 33, 22], (7, 8, 9), 100] 
12: [3, [66, 44, 33, 22], (7, 8, 9, 10, 11)] 
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图 8-3: 示例 8-6 执行 12 = list(11) 赋值 后 的 程序 状态 。L1 和 12 指 代 不 同 的 列表 ， 但 是 二 者 引用 
同一 个 列表 [66，55，44] 和 元 组 (7, 8, 9) (图 表 由 Python Tutor 网 站 生成 ) 
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Frames Objects 
Global frame list list 
加 一 一 一 一 > 0 1 2 3 
it 66 | 44 | 33 | 22 
12 
eS 4 
SI teh || ealfay || alot 
































图 8-4: 11 和 12 的 最 终 状 态 : 二 者 依然 引用 同一 个 列表 对 象 ， 现 在 列表 的 值 是 [66，44，33，22]， 
不 过 12[2] += (10, 11) 创建 一 个 新 元 组 ， 内 容 是 (7，8，9，10，11)， 它 与 L1[2] 引用 的 
元 组 (7，8，9) 无 关 (图 表 由 Python Tutor 网 站 生成 ) 


现在 你 应 该 明白 了 ， 浅 复制 容易 操作 ， 但 是 得 到 的 结果 可 能 并 不 是 你 想 要 的 。 接 下 来 说 明 
如 何 做 深 复 制 。 


为 任意 对 象 做 深 复制 和 浅 复制 


浅 复制 没什么 问题 ,但 有 了 时 我 们 需要 的 是 深 复制 ( 即 副本 不 共享 内 部 对 象 的 引用 )。copy 
模块 提供 的 deepcopy 和 copy 函数 能 为 任意 对 象 做 次 复制 和 浅 复制 。 


为 了 演示 copy() 和 deepcopy() 的 用 法 ， 示 例 8-8 定义 了 一 个 简单 的 类 ，Bus。 这 个 类 表示 
运载 乘客 的 校车 ， 在 途中 乘客 会 上 车 或 下 车 。 


示例 8-8 校车 乘客 在 途中 上 和 车 和 下 车 


class Bus: 








def __ init__(self, passengers=None): 
if passengers is None: 
self.passengers = [] 
else: 
self.passengers = lList(passengers) 


def pick(self, name): 
self .passengers.append(name) 


def drop(self, name): 
self .passengers.remove(name) 
接 下 来 ， 在 示例 8-9 中 的 交互 式 控制 台中 ， 我 们 将 创建 一 个 Bus 实例 (bust) 和 两 个 副本 ， 
一 个 是 浅 复 制 副本 (bus2)， 另 一 个 是 深 复制 副本 (bus3)， 看 看 在 bust 有 学 生 下 车 后 会 发 
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生 什 么 。 
示例 8-9 使 用 copy 和 deepcopy 产生 的 影响 


>>> import copy 


>>> bus1 = Bus(['Alice', 'Bill', 'Claire', 'David']) 
>>> bus2 = copy.copy(bus1) 
>>> bus3 = copy.deepcopy(bus1) 


>>> id(bus1), id(bus2), id(bus3) 
(4301498296, 4301499416, 4301499752) @ 
>>> busi1.drop('Bill') 
>>> bus2.passengers 
['Alice', 'Claire', 'David'] 
>>> id(bus1.passengers), id(bus2.passengers), id(bus3.passengers) 
(4302658568, 4302658568, 4302657800) © 
>>> bus3.passengers 
['Alice', 'Bill', 'Claire', 'David'] @ 
@ 使 用 copy 和 deepcopy， 创 建 3 个 不 同 的 Bus 实例 。 
@ bust 中 的 'Bill' 下 车 后 ，bus2 中 也 没有 他 了 。 
© 审查 passengers 属性 后 发 现 ，bus1 和 bus2 共享 同一 个 列表 对 象 ， 因 为 bus2 是 bus1 的 
浅 复 制 副 本 。 
© bus3 是 bust 的 深 复制 副本 ， 因 此 它 的 passengers 属性 指 代 另 一 个 列表 。 
注意 ， 一 般 来 说 ， 深 复制 不 是 件 简单 的 事 。 如 果 对 象 有 循环 引用 ， 那 么 这 个 朴素 的 算法 会 
进入 无 限 循 环 。deepcopy 国 数 会 记 住 已 经 复制 的 对 象 ， 因 此 能 优雅 地 处 理 循环 引用 ， 如 示 
例 8-10 所 示 。 


示例 8-10 循环 引用 : b 引用 a， 然 后 追加 到 a 中 ; deepcopy 会 想 办 法 复制 a 
>>> a = [10, 20] 
>>> b = [a, 30] 
>>> a.append(b) 
>>> a 
[10, 20, [[...], 30]] 
>>> from copy import deepcopy 
>>> c = deepcopy(a) 
>>> C 


[10, 20, [[...], 30]] 


ISh, REA IT AT REAR TPR, HARTE SAAS I OP EL. I 
们 可 以 实现 特殊 方法 __copy_() 和 _deepcopy_()， 控 制 copy 和 deepcopy 的 行为 ， 详 情 
参见 copy 模块 的 文档 Chttp://docs.python.org/3/library/copy.html) 。 
通过 别名 共享 对 象 还 能 解释 Python 中 传递 参数 的 方式 ， 以 及 使 用 可 变 类 型 作为 参数 默认 值 
引起 的 问题 。 接 下 来 讨论 这 些 问 题 。 


8.4 函数 的 参数 作为 引用 时 


Python 唯一 支持 的 参数 传递 模式 是 共享 传 参 (call by sharing)。 多 数 面 向 对 象 语言 都 采用 
这 一 模式 ， 包 括 Ruby, Smalltalk 和 Java (Java 的 引用 类 型 是 这 样 ， 基 本 类 型 按 值 传 参 ) 。 
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共享 传 参 指 函 数 的 各 个 形式 参数 获得 实 参 中 各 个 引用 的 副本 。 也 就 是 说 ， 函 数 内 部 的 形 参 
是 实 参 的 别名 。 


这 种 方案 的 结果 是 ， 国 数 可 外 

















>>> def f(a, b): 
a+=b 
return a 

>>> x= Í 

>>> y = 2 

>>> f(x, y) 

3 

>>> x,y @ 

(1, 2) 

>>> a = [1, 2] 

>>> b = [3, 4] 

>>> f(a, b) 

[2.°.23-3524] 

>>> a, b 

([1, 2, 3, 4], [3, 4]) 

>>> t = (10, 20) 

>>> u = (30, 40) 

>>> f(t, u) 

(10, 20, 30, 40) 

>>> t, uO 

((10, 20), (30, 40)) 


@ 数字 x 没 变 。 
O 列表 a 变 了 。 
© 元 组 t 没 变 。 


与 国 数 参数 相关 的 另 一 个 问题 是 使 用 可 变 值 


8.4.1 不 要 使 用 可 变 类 型 作为 参数 的 默认 值 


E 会 修改 作为 参数 传 入 的 可 变 对 象 ， 但 是 无 法 修改 那些 对 象 的 
标识 〈 即 不 能 把 一 个 对 象 奉 换 成 另 一 个 对 象 ) 。 示 例 8-11 中 有 个 简单 的 函数 ， 它 在 参数 上 
调用 += 运算 符 。 分 别 把 数字 、 列 表 和 元 组 传 给 那个 国 数 ， 实 际 传人 的 实 参 会 以 不 同 的 方 
式 受 到 影响 。 


示例 8-11 ”函数 可 能 会 修改 接收 到 的 任何 可 变 对 象 

















作为 默认 值 ， 下 一 市 会 讨论 。 











可 选 参数 可 以 有 默认 值 ， 这 是 Python 函数 定义 的 一 个 很 棒 的 特性 ， 这 样 我 们 的 API 在 进 


化 的 同时 能 保证 向 后 兼容 。 然 而 ， 我 们 应 该 避免 使 用 可 变 的 对 象 作为 参数 的 默认 值 。 
看 在 示例 8-12 中 说 明 这 个 问题 。 我 们 以 示例 8-8 中 的 Bus 类 为 基础 定义 一 个 新 类 ， 


下 


























HauntedBus， 然 后 修改 _init 方法 。 这 一 次 ，passengers 的 默认 值 不 是 None， 而 是 []， 
这 样 就 不 用 像 之 前 那样 使 用 if 判断 了 。 这 个 “聪明 的 举动 ”会 让 我 们 陷入 麻烦 。 


示例 8-12 


class HauntedBus: 


"we eH Ze AEE" 





一 个 简单 的 类 ， 说 明 可 变 默 认 值 的 危险 
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def _ init (self, passengers=[]): © 
self.passengers = passengers @ 


def pick(self, name): 
self.passengers.append(name) © 


def drop(self, name): 
self .passengers.remove(name) 


O 如 果 没 传人 passengers 参数 ， 使 用 默认 绑 定 的 列表 对 象 ， 一 开始 是 空 列表 。 


O 这 个 赋值 语句 把 seLf.passengers 变 成 passengers 的 别名 ， 而 没有 传 入 passengers 参 


数 时 ， 后 者 又 是 默认 列表 的 别名 。 
© ££ self.passengers 上 调用 .remove() 和 .append() 方法 时 ， 修 改 的 其 实 是 默认 列 
它 是 国 数 对 象 的 一 个 属性 。 


HauntedBus 的 诡异 行为 如 示例 8-13 所 示 。 


示例 8-13 备 受 幽灵 乘客 折磨 的 校车 

>>> bus1 = HauntedBus(['Alice', 'Bill']) 

>>> bus1.passengers 

['Alice', 'Bill'] 

>>> bus1.pick('Charlie') 

>>> bus1.drop('Alice') 

>>> busl.passengers @ 

['Bill', 'Charlie'] 

>>> bus2 = HauntedBus() @ 

>>> bus2.pick('Carrie') 

>>> bus2.passengers 

['Carrie'] 

>>> bus3 = HauntedBus() © 

>>> bus3.passengers @ 

['Carrie'] 

>>> bus3.pick('Dave') 

>>> bus2.passengers © 

['Carrie', 'Dave'] 

>>> bus2.passengers is bus3.passengers @ 

True 

>>> busl.passengers @ 

['Bill', 'Charlie'] 
O 目前 没什么 问题 ，bus1 没有 出 现 异 常 。 
O 一 开始 ，bus2 是 空 的 ， 因 此 把 默认 的 空 列 表 赋 值 给 self .passengers。 
© bus3 一 开始 也 是 空 的 ， 因 此 还 是 赋值 默认 的 列表 。 
O 但 是 默认 列表 不 为 空 ! 
© 登 上 bus3 的 Dave 出 现在 bus2 中 。 
@ 问题 是 ，bus2.passengers 和 bus3.passengers 指 代 同 一 个 列 录 
@ 但 busi.passengers 是 不 同 的 列表 。 


问题 在 于 ， 没 有 指定 初始 乘客 的 HauntedBus 实例 会 共享 同一 个 乘客 列表 。 
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这 种 问题 很 难 发 现 。 如 示例 8-13 所 示 ， 实 例 化 HauntedBus 时 ， 如 果 传 和 乘客， 会 按 
预期 运作 。 但 是 不 为 HauntedBus 指定 乘客 的 话 ， 奇 怪 的 事 就 发 生 了 ， 这 是 因为 self. 
passengers 变 成 了 passengers 参数 默认 值 的 别名 。 出 现 这 个 问题 的 根源 是 ， 默 认 值 在 定义 
函数 时 计算 〈 通 常 在 加 载 模块 时 ) ， 因 此 默认 值 变 成 了 国 数 对 象 的 属性 。 因 此 ， 如 果 默 认 
值 是 可 变 对 象 ， 而 且 修 改 了 它 的 值 ， 那 么 后 续 的 函数 调用 都 会 受到 影响 。 
运行 示例 8-13 中 的 代码 之 后 ， 可 以 审查 HauntedBus._ init_ H R, AACH 
defaults__ 属性 中 的 那些 幽灵 学 生 : 


>>> dir(HauntedBus.__init__) # doctest: +ELLIPSIS 
['__annotations__', '_ call ', ..., '_defaults__', ...] 


>>> HauntedBus.__init__.__defaults__ 

(['Carrie', 'Dave'],) 
最 后 ， 我 们 可 以 验证 bus2. passengers 是 一 个 别名 ， 它 绑 定 到 HauntedBus._ init__.__ 
defaults__ 届 性 的 第 一 个 元 素 上 : 


>>> HauntedBus.__ init 
True 


可 变 默 认 值 导 致 的 这 个 问题 说 明了 为 什么 通常 使 用 None 作为 接收 可 变 值 的 参数 的 默认 值 。 
在 示例 8-8 中 ，__init_ 方法 检查 passengers 参数 的 值 是 不 是 None， 如 果 是 就 把 一 个 新 的 
空 列 表 赋 值 给 seLf.passengers。 下 一 节 会 说 明 ， 如 果 passengers 不 是 None， 正 确 的 实现 
会 把 passengers 的 副本 赋值 给 seLf.passengers。 下 面 详解 。 


8.4.2 ”防御 可 变 参数 
如 果 定 义 的 国 数 接收 可 变 参数 ， 应 该 谴 慎 考 虑 调用 方 是 否 期 望 修改 传 入 的 参数 。 


例如 ， 如 果 函 数 接收 一 个 字典 ， 而 且 在 处 理 的 过 程 中 要 修改 它 ， 那 么 这 个 副作用 要 不 要 体 
现 到 函数 外 部 ?具体 情况 具体 分 析 。 这 其 实 需要 函数 的 编写 者 和 调用 方 达成 共识 。 


在 本 章 最 后 一 个 校车 示例 中 ，TwilightBus 实例 与 客户 共享 乘客 列表 ， 这 会 产生 意料 之 外 
的 结果 。 在 分 析 实 现 之 前 ， 我 们 先 从 客户 的 角度 看 看 TwilightBus 类 是 如 何 工作 的 。 


示例 8-14 从 TwilightBus 下 车 后 ,乘客 消失 了 
>>> basketball_team = ['Sue', 'Tina', 'Maya', 'Diana', 'Pat'] © 
>>> bus = TwilightBus(basketball_team) @ 
>>> bus.drop('Tina') © 
>>> bus.drop('Pat') 
>>> basketball_team @ 
['Sue', 'Maya', 'Diana'] 
@ basketball_team 中 有 5 个 学 生 的 名 字 。 
O 使 用 这 队 学 生 实例 化 TwilightBus, 
一 个 学 生 从 bus 下 车 了 ， 接 着 又 有 一 个 学 生 下 车 了 。 
O 下 车 的 学 生 从 篮球 队 中 消失 了 ! 


TwilightBus 违反 了 设计 接口 的 最 佳 实践 ， 即 “最 少 惊讶 原则 ”。 学 生 从 校车 中 下 车 后 ， 她 






















































































defaults__[0] is bus2.passengers 
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的 名 字 就 从 篮球 队 的 名 单 中 消失 了 ， 这 确实 让 人 惊讶 。 
示例 8-15 是 TwilightBus 的 实现 ， 随 后 解释 了 出 现 这 个 问题 的 原因 。 
示例 8-15 ”一 个 简单 的 类 ， 说 明 接 受 可 变 参 数 的 风险 


class TwilightBus: 
"""i 上 乘客 销声匿迹 的 校车 """ 














def _init (self, passengers=None): 
if passengers is None: 
self.passengers = [] @ 
else: 
self.passengers = passengers @ 


def pick(self, name): 
self.passengers.append(name) 


def drop(self, name): 
self.passengers.remove(name) © 


O 这 里 谨慎 处 理 ， 当 passengers 为 None 时 ， 创 建 一 个 新 的 空 列表 。 

O 然而 ， 这 个 赋值 语句 把 self.passengers 变 成 passengers 的 别名 ， 而 后 者 是 传 给 __ 
init__ 方法 的 实 参 (EAP 8-14 中 的 basketball_team) 的 别名 。 

© 在 self.passengers 上 调用 .remove() 和 .append() 方法 其 实 会 修改 传 给 构造 方法 的 那 
个 列表 。 


这 里 的 问题 是 ， 校 车 为 传 给 构造 方法 的 列表 创建 了 别名 。 正 确 的 做 法 是 ， 校 车 自己 维护 乘 
客 列表 。 修 正 的 方法 很 简单 : 在 _init_ 中， 传人 passengers 参数 时 ， 应 该 把 参数 值 的 
副本 赋值 给 seLf.passengers， 像 示例 8-8 中 那样 做 (8.3 节 )。 
def _ init (self, passengers=None): 
if passengers is None: 
self.passengers = [] 


else: 
self.passengers = list(passengers) @ 


O fl passengers 列表 的 副本 ， 如 果 不 是 列表 ， 就 把 它 转换 成 列表 。 
在 内 部 像 这 样 处 理 乘客 列表 ， 就 不 会 影响 初始 化 校车 时 传人 的 参数 了 。 此 外 ， 这 种 处 理 方 
FUR RIG: 现在 ， 传 给 passengers 参数 的 值 可 以 是 元 组 或 任何 其 他 可 和 进 代 对 象 ， 例 如 
set 对 象 ， 甚 至 数据 库 查 询 结果 ， 因 为 lst 构造 方法 接受 任何 可 迭代 对 象 。 自 己 创建 并 管 
理 列表 可 以 确保 支持 所 需 的 .remove() 和 .append() 操作 ， 这 样 .pick() 和 .drop() 方法 才 
能 正常 运作 。 

除非 这 个 方法 确实 想 修改 通过 参数 传 入 的 对 象 ， 否 则 在 类 中 直接 把 参数 赋值 

给 实例 变量 之 前 一 定 要 三 思 ， 因 为 这 样 会 为 参数 对 象 创建 别名 。 如 果 不 确 

定 ， 那 就 创建 副本 。 这 样 客户 会 少 些 麻烦 。 









































8.5 ”del 和 垃圾 回收 


一 一 Python 语言 参考 手册 中 “Data Model” 一 章 


del 语句 删除 名 称 ， 而 不 是 对 象 。del 命令 可 能 会 导致 对 象 被 当 作 垃圾 回收 ， 但 是 仅 当 删 除 
的 变量 保存 的 是 对 象 的 最 后 一 个 引用 , 或 者 无 法 得 到 对 象 时 。’ 重新 绑 定 也 可 能 会 导致 对 象 
的 引用 数量 归 零 ， 导 致 对 象 被 销毁 。 


有 个 _deL_ 特殊 方法 ， 但 是 它 不 会 销毁 实例 ， 不 应 该 在 代码 中 调用 。 即 将 销 
Beet, Python 解释 器 会 调用 del 方法 ， 给 实例 最 后 的 机 会 ， 释 放 外 部 
资源 。 自 己 编写 的 代码 很 少 需要 实现 del 代码 ， 有 些 Python 新 手 会 花 时 
间 实现 ， 但 却 吃 力 不 讨 好 ， 因 为 del 很 难 用 对 。 详 情 参见 Python 语言 参 
考 手 册 中 “Data Model” 一 章 中 __del__ 特殊 方法 的 文档 (https://docs.python. 
org/3/reference/datamodel.html#object.__del__) A 









































在 CPython 中 ， 垃 圾 回收 使 用 的 主要 算法 是 引用 计数 。 实 际 上 ， 每 个 对 象 都 会 统计 有 多 少 
引用 指向 自己 。 当 引用 计数 归 零 时 ， 对 象 立即 就 被 销毁 : CPython 会 在 对 象 上 调用 del 
方法 (如果 定义 了 )， 然 后 释放 分 配给 对 象 的 内 存 。CPython 2.0 增加 了 分 代 垃 圾 回收 算法 ， 
用 于 检测 引用 循环 中 涉及 的 对 象 组 如 果 一 组 对 象 之 间 全 是 相互 引用 ， 即 使 再 出 色 的 引 
用 方式 也 会 导致 组 中 的 对 象 不 可 获取 。Python 的 其 他 实现 有 更 复杂 的 垃圾 回收 程序 ， 而 且 
不 依赖 引用 计数 ， 这 意味 着 ， 对 象 的 引用 数量 为 零 时 可 能 不 会 立即 调用 del 方法。A. 
Jesse Jiryu Davis 写 的 “PyPy, Garbage Collection, and a Deadlock” 一 文 (https://emptysqua. 
re/blog/pypy-garbage-collection-and-a-deadlock/) 对 _del__ 方法 的 恰当 用 法 和 不 当 用 法 做 
了 讨论 。 
为 了 演示 对 象 生 命 结 束 时 的 情形 ， 示 例 8-16 使 用 weakref. finalize 注册 一 个 回调 函数 ， 
在 销毁 对 象 时 调用 。 


示例 8-16 没有 指向 对 象 的 引用 时 ， 监 视 对 象 生命 结束 时 的 情形 
>>> import weakref 
>>> s1 = {1, 2, 3} 
>>> S2 = s1 
>>> def bye(): (2) 
print('Gone with the wind...') 









































>>> ender = weakref.finalize(s1, bye) © 
>>> ender.alive @ 

True 

>>> del s1 

>>> ender.alive O 

True 











TE 2: 如 果 两 个 对 象 相互 引用 ， 像 示例 8-10 那样 ， 当 它们 的 引用 只 存在 二 者 之 间 时 ， 垃 圾 回收 程序 会 判定 
它们 都 无 法 获取 ， 进 而 把 它们 都 销毁 。 
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>>> s2 = 'spam' QO 
Gone with the wind... 
>>> ender.alive 
False 


@ sl 和 s2 是 别名 ， 指 向 同一 个 集合 ，{1，2，3}。 

O 这 个 函数 一 定 不 能 是 要 销毁 的 对 象 的 绑 定 方法 ， 否 则 会 有 一 个 指向 对 象 的 引用 。 

© 在 s1 引 用 的 对 象 上 注册 bye 回调 。 

© 调用 finalize 对 象 之 前 ，.alive 属性 的 值 为 True。 

© 如 前 所 述 ，del 不 删除 对 象 ， 而 是 删除 对 象 的 引用 。 

O 重新 绑 定 最 后 一 个 引用 s2， 让 {1, 2, 3} 无 法 获取 。 对 象 被 销毁 了 ， 调 用 了 bye 回调 ， 
ender .alive 的 值 变 成 了 False, 


示例 8-16 的 目的 是 明确 指出 del 不 会 删除 对 象 ， 但 是 执行 del 操作 后 可 能 会 导致 对 象 不 可 
获取 ， 从 而 被 删除 。 

你 可 能 觉得 奇怪 ， 为 什么 示例 8-16 中 的 (1, 2, 3} 对 象 被 销毁 了 ? 毕竟 ,我 们 把 s1 引用 
传 给 finalize 函数 了 ， 而 为 了 监控 对 象 和 调用 回调 ， 必 须要 有 引用。 这 是 因为 ，finalize 
WA {1，2，3} 的 弱 引 用 ， 参 见 下 一 节 。 


8.6 ” 弱 引 用 


正 是 因为 有 引用 ， 对 象 才 会 在 内 存 中 存在 。 当 对 象 的 引用 数量 归 零 后 ， 垃 圾 回收 程序 会 把 
对 象 销毁 。 但 是 ， 有 时 需要 引用 对 象 ， 而 不 让 对 象 存 在 的 时 间 超 过 所 需 时 间 。 这 经 常用 在 
缓存 中 。 

弱 引 用 不 会 增加 对 象 的 引用 数量 。 引 用 的 目标 对 象 称 为 所 指 对 象 (referent) 。 因 此 我 们 说 ， 
弱 引 用 不 会 妨碍 所 指 对 象 被 当 作 垃圾 回收 。 

弱 引 用 在 缓存 应 用 中 很 有 用 ， 因 为 我 们 不 想 仅 因为 被 缓存 引用 着 而 始终 保存 缓存 对 象 。 
示例 8-17 展示 了 如 何 使 用 weakref .ref 实例 获取 所 指 对 象 。 如 果 对 象 存 在 ， 调 用 弱 引 用 可 
以 获取 对 象 ， 否 则 返回 None, 



































示例 8-17 是 一 个 控制 台 会 话 ，Python 控制 台 会 自动 把 - 变量 绑 定 到 结果 不 为 
None 的 表达 式 结 果 上 。 这 对 我 想 演示 的 行为 有 影响 ， 不 过 却 上 出 显 了 一 个 实际 
问题 : 微观 管理 内 存 时 ， 往 往 会 得 到 意外 的 结果 ， 因 为 不 明显 的 隐 式 赋值 会 
为 对 象 创建 新 引用 。 控 制 台中 的 _ 变量 是 一 例 。 调 用 跟踪 对 象 也 常 导致 意料 
之 外 的 引用 。 














示例 8-17 ” 弱 引 用 是 可 调用 的 对 象 ， 返 回 的 是 被 引用 的 对 象 ， 如 果 所 指 对 象 不 存在 了 ， 
返回 None 


>>> import weakref 

>>> a_set = {0, 1} 

>>> wref = weakref.ref(a_set) @ 
>>> wref 
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0 
© 


© 
© 
© 


© 


weakref 模块 的 文档 (http://docs.python.org/3/library/weakref.html) 指出 ，weakref.ref 类 其 


<weakref at 0x100637598; to 'set' at 0x100636748> 
>>> wref() @ 

{0, 1} 

>>> a_set = {2, 3, 4} © 

>>> wref() @ 

{0, 1} 

>>> wref() is None @ 

False 

>>> wref() is None @ 

True 


创建 弱 引 用 对 象 wref， 下 一 行 审查 它 。 





调用 wref() 返回 的 是 被 引用 的 对 象 ，{6，1。 因 为 这 是 控制 台 会 话 ， 所 以 {09，1} 会 绑 








定 给 -变量 


Œ. o 








a_set 不 再 指 代 {0，1} 集合 ， 因 此 集合 的 引用 数量 减少 了 。 但 是 - 变量 仍然 指 代 它 。 


调用 wref() 依旧 返回 {0, 1}, 








计算 这 个 表达 式 时 ，{96， 了 全 存在 ， 因 此 wref() 不 是 None。 但 是 ， 随 后 - 绑 定 到 结果 值 





False, WIZE {0, 1} 没有 强 引 用 了 。 
因为 {6，1} 对 象 不 存在 了 ， 所 以 wref() 返回 None, 






































实 是 低层 接口 ， 供 高 级 用 途 使 用 ， 多 数 程序 最 好 使 用 weakref 集合 和 finalize。 也 就 是 说 ， 


应 该 
引用 )， 不 要 自己 动手 创建 并 处 至 








使 用 WeakKeyDictionary, WeakValueDictionary, WeakSet 和 finalize (在 内 部 使 用 弱 
Eweakref.ref 实例 。 我 们 在 示例 8-17 中 那么 做 


是 希望 借 





助 实际 使 用 weakref.ref 来 褪去 它 的 神秘 色彩 。 但 是 实际 上 ， 多 数 时 候 Python 程序 都 使 用 


weakref 集合 。 


下 一 节 简 要 讨论 weakref 集合 。 


8.6.1 WeakValueDictionary 简 介 


WeakValueDictionary 类 实现 的 是 一 种 可 变 映 射 ， 恒 
在 程序 中 的 其 他 地 方 被 当 作 垃圾 回收 后 ， 对 应 的 键 会 自动 从 WeakValueDictionary 中 删除 。 














因 些 ，WeakValueDictionary 经 常用 于 缓存 。 


我 们 对 WeakValueDictionary 的 演示 受到 来 
《 奶 酷 店 》 的 启发 ， 在 那 出 短 剧 旦 
Hk, 











但 是 都 没有 货 。” 


示例 8-18 实现 一 个 简单 的 类 ， 表 示 各 种 奶 栈 。 
示例 8-18 Cheese 有 个 kind 属性 和 标准 的 字符 串 表示 形式 











class Cheese: 








HE 3; cheeseshop.python.org 还 是 PyPI (Python Package Index 软件 仓库 ) 的 别名 ,一 开始 里 








且 面 的 值 是 对 象 的 弱 引 用 。 被 引用 的 对 象 


自 英国 六 人 喜剧 团体 Monty Python 的 经 典 短 剧 
E, APET 40 多 种 奶酪， 包括 切 达 干 栈 和 马 苏 里 拉 奶 























所 什么 也 没 














有 。 写 作 本 书 时 ，Python Cheese Shop 中 有 41 426 个 包 。 还 不 错 ， 但 是 与 有 131 000 个 模块 的 CPAN 


(Comprehensive Perl Archive Network) 相 比 , 还 差 得 远 . 所 有 动态 语言 社 





区 都 羡 募 CPAN 中 有 那么 多 模块 。 
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def _ init__(self, kind): 
self.kind = kind 


def _ repr__(self): 
return 'Cheese(%r)' % self.kind 


在 示例 8-19 FH, FR TT FE catalog 中 的 各 种 奶 酷 载 入 WeakValueDictionary 实现 的 stock 
中 。 然 而 ， 删 除 catalog 后 ，stock 中 只 剩 下 一 种 奶 栈 了 。 你 知道 为 什么 帕尔马 干 酷 
(Parmesan) 比 其 他 奶酪 保存 的 时 间 长 吗 ? “代码 后 面 的 提示 中 有 答案 。 


示例 8-19 顾客 :“ 你 们 店 里 到 底 有 没有 奶酪 ?“ 
>>> import weakref 
>>> stock = weakref.WeakValueDictionary() @ 
>>> catalog = [Cheese('Red Leicester'), Cheese('Tilsit'), 
Cheese('Brie'), Cheese('Parmesan' )] 


























>>> for cheese in catalog: 
stock[cheese.kind] = cheese @ 


>>> sorted(stock.keys()) 

['Brie', 'Parmesan', 'Red Leicester', 'Tilsit'] © 
>>> del catalog 

>>> sorted(stock.keys()) 

['Parmesan'] @ 

>>> del cheese 

>>> sorted(stock.keys()) 


[] 
@ stock 是 WeakValueDictionary 实例 。 
@ stock 把 奶酪 的 名 称 映射 到 catalog 中 Cheese 实例 的 弱 引 用 上 。 
© stock 是 完整 的 。 
© 删除 catalog 之 后 ，stock 中 的 大 多 数 奶 酷 都 不 见 了 ， 这 是 WeakValueDictionary 的 预期 
行为 。 为 什么 不 是 全 部 呢 ? 
临时 变量 引用 了 对 象 ， 这 可 能 会 导致 该 变量 的 存在 时 间 比 预期 长 。 通 常 ， 这 对 
局 部 变量 来 说 不 是 问题 ， 因 为 它们 在 函数 返回 时 会 被 销毁 。 但 是 在 示例 8-19 
中 ，for 循环 中 的 变量 cheese 是 爹 局 变量 ， 除 非 显 式 删 除 ， 否 则 不 会 消失 。 




















与 WeakValueDictionary 对 应 的 是 weakkeyDictionary， 后 者 的 键 是 弱 引 用 。weakref. 
WeakKeyDictionary 的 文档 (https://docs.python.org/3/library/weakref.html ?highlight=weakref#weakref. 
WeakKeyDictionary) 指出 了 一 些 可 能 的 用 途 : 


(WeakKeyDictionary 实例 ) 可 以 为 应 用 中 其 他 部 分 拥有 的 对 象 附加 数据 ， 这 样 就 无 
需 为 对 象 添加 属性 。 这 对 和 窗 盖 属性 访问 权限 的 对 象 尤其 有 用 。 




















注 4: 帕尔马 干 酷 在 








y 
u 








至 少 要 存储 一 年 ， 因 此 它 比 其 他 新 鲜 奶酪 的 保存 时 间 长 。 但 是 ， 这 不 是 我 们 想 要 




















weakref 模块 还 提供 了 WeakSet 类 ， 按 照 文档 的 说 明 ， 这 个 类 的 作用 很 简单 :“ 保 存 元 素 弱 
引用 的 集合 类 。 元 素 没 有 强 引 用 时 ， 集 合 会 把 它 删 除 。 如 果 一 个 类 需要 知道 所 有 实例 ， 
一 种 好 的 方案 是 创建 一 个 weakset 类 型 的 类 属性 ， 保 存 实 例 的 引用 。 如 有 果 使 用 常规 的 set, 
实例 永远 不 会 被 垃圾 回收 ， 因 为 类 中 有 实例 的 强 引 用 ， 而 类 存在 的 时 间 与 Python 进程 一 样 
长 ， 除 非 显 式 删 除 类 。 


这 些 集合 ， 以 及 一 般 的 弱 引 用 ， 能 处 理 的 对 象 类 型 有 限 。 参 见 下 一 节 的 说 明 。 


8.6.2 ” 弱 引 用 的 局 限 
不 是 每 个 Python 对 象 都 可 以 作为 弱 引 用 的 目标 (或 称 所 指 对 象 )。 基 本 的 List 和 dict 实 
例 不 能 作为 所 指 对 象 ， 但 是 它们 的 子 类 可 以 轻松 地 解决 这 个 问题 : 


class MyList(list): 
"""ttst 的 子 类 ,实例 可 以 作为 弱 引 用 的 目标 "”" 




















a_list = MyList(range(10)) 


# a_List 可 以 作为 弱 引 用 的 目标 

wref_to_a_list = weakref.ref(a_list) 
set 实例 可 以 作为 所 指 对 象 ， 因 此 实例 8-17 才 使 用 set 实例 。 用 户 定义 的 类 型 也 没 问 题 ， 
这 就 解释 了 示例 8-19 中 为 什么 使 用 那个 简单 的 Cheese 类 。 但 是 ，int 和 tuple 实例 不 能 作 
为 弱 引 用 的 目标 ， 甚 至 它们 的 子 类 也 不 行 。 


这 些 局 限 基本 上 是 CPython 的 实现 细节 ， 在 其 他 Python 解释 器 中 情况 可 能 不 一 样 。 这 些 局 
限 是 内 部 优化 导致 的 结果 ， 下 一 市 会 以 其 中 几 个 类 型 为 例 讨论 (完全 选读 )。 


8.7 ”Python 对 不 可 变 类 型 施加 的 把 戏 


你 可 以 放心 跳 过 本 节 。 这 里 讨论 的 是 Python 的 实现 细节 ， 对 Python 用 户 来 
说 没 那么 重要 。 这 些 细节 是 CPython 核心 开发 者 走 的 捷径 和 做 的 优化 措施 ， 
对 这 门 语 言 的 用 户 而 言 无 需 了 解 ， 而 且 那 些 细节 对 其 他 Python 实现 可 能 没 
用 ，CPython 未 来 的 版 本 可 能 也 不 会 用 。 尽 管 如 此 ， 在 学 习 别 名 和 副本 的 过 
程 中 ， 你 可 能 偶然 见 过 这 些 把 戏 ， 因 此 我 觉得 有 必要 讲 一 下 。 















































我 惊讶 地 发 现 ， 对 元 组 t 来 说 ，t[:] 不 创建 副本 ， 而 是 返回 同一 个 对 象 的 引用 。 此 外 ， 
tuple(t) 获得 的 也 是 同一 个 元 组 的 引用 。’ 示例 8-20 证 明了 这 一 点 。 


示例 8-20 ”使 用 另 一 个 元 组 构建 元 组 ， 得 到 的 其 实 是 同一 个 元 组 
>>> t1 = (1, 2, 3) 
>>> t2 = tuple(t1) 
>>> t2 is tl Q 




















TES: 文档 明确 指出 了 这 个 行为 。 在 Python 控制 台中 输入 hetp(tupte)， 你 会 看 到 这 句 话 :“ 如 果 参 数 是 一 
个 元 组 ， 那 么 返回 值 是 同一 个 对 象 。” 撰写 这 本 书 之 前 ， 我 还 以 为 自己 对 元 组 无 所 不 知 。 
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True 

>>> t3 = t1[:] 
>>> t3 is t1 @ 
True 


O tl 和 t2 绑 定 到 同一 个 对 象 。 
O t3 也 是 。 


str、bytes 和 frozenset 实例 也 有 这 种 行为 。 注 意 ，frozenset 实例 不 是 序列 ， 因 此 不 能 
使 用 fs[:] (fs 是 一 个 frozenset 实例 )。 但 是 ，fs.copy() 具有 相同 的 效果 : 它 会 欺骗 你 ， 
返回 同一 个 对 象 的 引用 ， 而 不 是 创建 一 个 副本 ， 如 示例 8-21 所 示 。 À 


示例 8-21 字符 串 字 面 量 可 能 会 创建 共享 的 对 象 
>>> ti = (1, 2, 3) 
>>> t3 = (1, 2, 3) #0 
>>> t3 is t1 # @ 





False 

>>> s1 = 'ABC' 

>>> s2 = 'ABC' # 加 
>>> s2 is s1 #0 
True 


O 新 建 一 个 元 组 。 

© t1 和 t3 相等 ， 但 不 是 同一 个 对 象 。 

© 再 新 建 一 个 字符 串 。 

O 奇怪 的 事 发 生 了 ，a 和 b 指 代 同 一 个 字符 串 。 
共享 字符 串 字 面 量 是 一 种 优化 措施 ， 称 为 驻 留 (interning)。CPython 还 会 在 小 的 整数 上 使 
用 这 个 优化 措施 ， 防 止 重 复 创 建 “ 热 门 ”数字 ， 如 0、-1 和 42。 注 意 ，CPython 不 会 驻 贸 
所 有 字符 串 和 整数 ， 驻 留 的 条 件 是 实现 细节 ， 而 且 没 有 文档 说 明 。 

















千 万 不 要 依赖 字符 串 或 整数 的 驻 留 ! 比较 字符 串 或 整数 是 否 相等 时 ， 应 该 使 
==， 而 不 是 is。 驻 留 是 Python 解释 器 内 部 使 用 的 一 个 特性 。 











ASS PT VEHIFE RK, Ri frozenset.copy() 的 行为 ， 是 “善意 的 谎言 ， 能 节省 内 存 ， 提 升 
解释 器 的 速度 。 别 担心 ， 它 们 不 会 为 你 带 来 任何 麻烦 ， 因 为 只 有 不 可 变 类 型 会 受到 影响 。 
或 许 这 些 细 枝 末节 的 最 佳 用 途 古 与 其 他 Python 程序 员 打 赌 ， 提 高 自己 的 胜算 。 














注 6: copy 方法 不 会 复制 所 有 对 象 ， 这 是 一 个 善意 的 谎言 ， 为 的 是 接口 的 兼容 性 : 这 使 得 frozenset 的 兼容 
HELE set 强 。 两 个 不 可 变 对 象 是 同一 个 对 象 还 是 副本 ， 反 正 对 最 终 用 户 来 说 没有 区 别 。 
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8.8 ”本章 小 结 
每 个 Python 对 象 都 有 标识 、 类 型 和 值 。 只 有 对 象 的 值 会 不 时 变化 。? 


如 果 两 个 变量 指 代 的 不 可 变 对 象 具 有 相同 的 值 (a == b 为 True)， 实 际 上 它们 指 代 的 是 副 
本 还 是 同一 个 对 象 的 别名 基本 没什么 关系 ， 因 为 不 可 变 对 象 的 值 不 会 变 ， 但 有 一 个 例外 。 
这 里 说 的 例外 是 不 可 变 的 集合 ， 如 元 组 和 frozenset: 如 果 不 可 变 集合 保存 的 是 可 变 元 素 
的 引用 ， 那 么 可 变 元 素 的 值 发 生变 化 后 ， 不 可 变 集 合 也 会 随 之 改变 。 实 际 上 ， 这 种 情况 不 
是 很 常见 。 不 可 变 集合 不 变 的 是 所 含 对 象 的 标识 。 

变量 保存 的 是 引用 ， 这 一 点 对 Python 编程 有 很 多 实际 的 影响 。 


。 简单 的 赋值 不 创建 副本 。 

。 对 += 或 *= 所 做 的 增 量 赋值 来 说 ,如 果 左 边 的 变量 绑 定 的 是 不 可 变 对 象 ,会 创建 新 对 象 ; 
如 果 是 可 变 对 象 ， 会 就 地 修改 。 

。 为 现 有 的 变量 赋予 新 值 ， 不 会 修改 之 前 绑 定 的 变量 。 这 叫 重新 绑 定 : 现在 变量 绑 定 了 其 
他 对 象 。 如 果 变 量 是 之 前 那个 对 象 的 最 后 一 个 引用 ， 对 象 会 被 当 作 垃圾 回收 。 

。 国 数 的 参数 以 别名 的 形式 传递 ， 这 意味 着 ， 国 数 可 能 会 修改 通过 参数 传人 的 可 变 对 象 。 
这 一 行为 无 法 避免 ， 除非 在 本 地 创建 副本 ,或 者 使 用 不 可 变 对 象 例 如 ， 传 入 元 组 ， 而 
不 传人 列表 )。 

。 使 用 可 变 类 型 作为 函数 参数 的 默认 值 有 危险， 因为 如 果 就 地 修改 了 参数 ， 默 认 值 也 就 变 
了 ， 这 会 影响 以 后 使 用 默认 值 的 调用 。 

在 CPython 中 ， 对 象 的 引用 数量 归 零 后 ， 对 象 会 被 立即 销毁 。 如 果 除 了 循环 引用 之 外 没有 

其 他 引用 ， 两 个 对 象 都 会 被 销毁 。 某 些 情况 下 ， 可 能 需要 保存 对 象 的 引用 ， 但 不 留存 对 象 

本 身 。 例 如 ， 有 一 个 类 想 要 记录 所 有 实例 。 这 个 需求 可 以 使 用 弱 引 用 实现 ， 这 是 一 种 低层 

机 制 ， 是 weakref 模块 中 WeakValueDictionary, WeakKeyDictionary 和 WeakSet 等 有 用 的 集 

合 类 ， 以 及 Finalize 国 数 的 底层 支持 。 


8.9 延伸 阅读 


Python 语言 参考 手册 中 “Data Model” 一 章 (https://docs.python.org/3/reference/datamodel. 
html) 的 开头 清楚 解释 了 对 象 的 标识 和 值 。 
“Python 核心 系列 ”图 书 的 作者 Wesley Chun 在 OSCON 2013 做 了 一 场 精彩 的 演讲 ， 洒 盖 
了 本 章 讨 论 的 很 多 话题 。 在 “Python 103: Memory Model & Best Practices” 演 讲 页 面 (http:/ 
conferences.oreilly.com/oscon/oscon2013/public/schedule/detail/29374) 可 以 下 载 幻灯 片 。Wesley 
在 EuroPython 2011 还 做 过 一 次 更 长 的 演讲 (YouTube 视频 : https://www.youtube.com/watch?v 
=HHEFCFJSPWrI) ， 不 仅 洱 盖 了 本 章 的 主题 ， 还 讨论 了 特殊 方法 的 使 用 。 


Doug Hellmann 写 了 一 长 串 精 彩 的 博客 文章 ， 题 为 “Python Module of the Week” (http:// 







































































































































































注 7: 其 实 ， 对 象 的 类 型 也 可 以 变 ， 方 法 只 有 一 种 : 为 class 属性 指定 其 他 类 。 但 这 是 在 作恶 ， 我 后 悔 
加 上 这 个 脚注 了 。 
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pymotw.com),“ 后 来 集结 成 书 ， 即 《Python 标准 库 》。 他 写 的 “copy - Duplicate Objects” 
(http://pymotw.com/2/copy/) ° FU “weakref - Garbage-Collectable References to Objects” (http:// 
pymotw.com/2/weakref/) "两 篇 文章 洱 盖 了 本 章 讨论 的 部 分 话题 。 

关于 CPython 分 代 垃 圾 回收 程序 的 更 多 信息 ， 请 参阅 gc 模块 的 文档 (https://docs.python. 
org/3/library/gc.html) 。 文 档 开 头 的 第 一 句 话 是 :“ 这 个 模块 为 可 选 的 垃圾 回收 程序 提供 接 
Ho” “可 选 的 ”这 个 修饰 词 可 能 让 人 惊讶 ， 不 过 “Data Model” 一 章 (https://docs.python. 
org/3/reference/datamodel.html) 也 说 : 


























垃圾 回收 可 以 延缓 实现 ， 或 者 完全 不 实现 一 一 如 何 实现 垃圾 回收 是 实现 的 质量 问题 ， 
只 要 不 把 还 能 获得 的 对 象 给 回收 了 就 行 。 

Fredrik Lundh (很 多 核心 库 的 创建 者 ， 如 ElementTree, Tkinter 和 图 像 库 PIL) 写 了 一 篇 短 

文 ， 谈 论 了 Python 的 垃圾 回收 程序 ， 题 为 “How Does Python Manage Memory?” (http://effbot. 

org/pyfaq/how-does-python-manage-memory.htm)。 他 强调 垃圾 回收 程序 是 一 种 实现 的 特性 ， 其 

行为 在 不 同 的 Python 解释 器 中 有 所 不 同 。 例 如 ，Jython 用 的 是 Java 垃圾 回收 程序 。 


CPython 3.4 改进 了 人 处理 有 __del 方法 的 对 象 的 方式 ， 参 见 “PEP 442 一 Safe object 
finalization” (https://www.python.org/dev/peps/pep-0442/) 。 

维基 百科 中 有 一 篇 文章 讲解 了 字符 串 驻 留 (https://en.wikipedia.org/wiki/String_interning) , 
那 篇 文章 提 到 了 几 种 语言 对 这 个 技术 的 利用 ， 包 括 Python, 
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平等 对 待 所 有 对 象 


RIL Python 之 前 ， 我 学 过 Java。 我 一 直觉 得 Java 的 == 运算 符 用 着 不 舒服 。 程 序 员 关 
注 的 基本 上 是 相等 性 ， 而 不 是 标识 ， 但 是 Java == 运算 符 比较 的 是 对 象 (不 是 基本 
类 型 ) 的 引用 ， 而 不 是 对 象 的 值 。 就 算是 比较 字符 串 这 样 的 基本 操作 ，jJava 也 强制 你 
使 用 .equals 方 法。 尽管 如 此 ，.equals 方法 还 有 另 一 个 问题 : 如 果 编 写 a.equals(b)， 
而 a 是 nuLL， 会 得 到 一 个 空 指 针 异 常 。Java 设计 者 觉得 有 必要 重 载 字 符 串 的 + 运算 
符 ， 那 为 什么 不 把 == 也 重 载 了 ? 

Python 采取 了 正确 的 方式 。== 运算 符 比 较 对 象 的 值 ， 而 is 比较 引用 。 此 外 ，Python 
支持 重 载运 算 符 ，== 能 正确 处 理 标准 库 中 的 所 有 对 象 ， 包 括 None 一 一 这 是 一 个 正常 的 
对 象 ， 与 Java 的 null 不 同 。 





























注 8: 原来 是 基于 Python 2 的 (https://pymotw.com/2/)， 现 在 已 经 改 为 基于 Python 3 (https://pymotw.com/3/)。 











注 9: 新 的 版 本 基于 Python 3 (https://pymotw.com/3/copy/)。 一 一 编者 注 
注 10: 新 的 版 本 基于 Python 3， 并 改名 为 “weakref - Impermanent References to Objects” (https://pymotw. 
com/3/weakref/) 。 一 一 编者 注 
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当然 ， 你 可 以 在 自己 的 类 中 定义 _eq__ 方 法， 决定 == 如 何 比 较 实例 。 如 果 不 复 盖 
eq F, ARZA object 继承 的 方法 比较 对 象 的 ID， 因 此 这 种 后 备 机 制 认为 用 户 
定义 的 类 的 各 个 实例 是 不 同 的 。 


1998 年 9 月 的 一 个 下 午 ， 读 完 Python 教程 后 ， 考 虑 到 这 些 行为 ， 我 立即 就 从 Java 转 
到 Python 了 。 


可 变性 


如 果 所 有 Python 对 象 都 是 不 可 变 的 ， 那 么 本 章 就 没有 存在 的 必要 了 。 处 理 不 可 变 的 对 
象 时 ， 变 量 保存 的 是 真正 的 对 象 还 是 共享 对 象 的 引用 无 关 紧 要 ， 如果 a == b 成 立 , 而 
且 两 个 对 象 都 不 会 变 ， 那 么 它们 就 可 能 是 相同 的 对 象 。 这 就 是 为 什么 字符 串 可 以 安全 
使 用 驻 留 。 仅 当 对 象 可 变 时 ， 对 象 标识 才 重 要 。 


在 “ 纯 ” 函 数 式 编程 中 ， 所 有 数据 都 是 不 可 变 的 ， 如 果 为 集合 追加 元 素 ， 那 么 其 实 会 
创建 新 的 集合 。 然 而 ，Python 不 是 函数 式 语言 ， 更 别提 纯 不 纯 了 。 在 Python 中 ， 用 户 
定义 的 类 ， 其 实例 默认 可 变 (多 数 面向 对 象 语言 前 是 如 此 )。 自 已 创建 对 象 时 ， 如 果 需 
要 不 可 变 的 对 象 ， 一 定 要 格外 小 心 。 此 时 ， 对 象 的 每 个 属性 都 必须 是 不 可 变 的 ， 否 则 
会 出 现 类 似 元 组 那 种 行为 : 元 组 本 身 不 可 变 ， 但 是 如 果 里 面 保 存 着 可 变 对 象 ， 那 么 元 
组 的 值 可 能 会 变 。 


可 变 对 和 象 还 是 导致 多 线程 编程 难以 处 理 的 主要 原因 ， 因 为 某 个 线程 改动 对 象 后 ， 如 果 
不 正确 地 同步 ， 那 就 会 损坏 数据 。 但 是 过 度 同步 又 会 导致 死 锁 。 


对 象 析 构 和 垃圾 回收 


Python 没有 直接 销毁 对 象 的 机 制 ， 这 一 疏漏 其 实 是 一 个 好 的 特性 : 如 果 随 时 可 以 销毁 
对 象 ， 那 么 指向 对 象 的 强 引 用 怎么 办 ? 


CPython 中 的 垃圾 回收 主要 依靠 引用 计数 ， 这 容易 实现 ， 但 是 遇 到 引用 循环 容易 泄露 
内 存 ， 因 此 CPython 2.0 (2000 年 10 月 发 布 ) 实现 了 分 代 垃 圾 回收 程序 ， 它 能 把 引用 
循环 中 不 可 获取 的 对 象 销 毁 。 


但 是 引用 计数 仍然 作为 一 种 基准 存在 ， 一 旦 引用 数量 归 零 ， 就 立即 销毁 对 象 。 这 意味 
着 ， 在 CPython 中 ， 这 样 写 是 安全 的 (至 少 目前 如 此 ) : 


open('test.txt', 'wt', encoding='utf-8').write('1, 2, 3') 


这 行 代码 是 安全 的 ， 因 为 文件 对 象 的 引用 数量 会 在 write FABAE IIR, Python 
在 销毁 内 存 中 表示 文件 的 对 象 之 前 ， 会 立即 关闭 文件 。 然 而 ， 这 行 代 码 在 Jython 或 
IronPython 中 却 不 安全 ， 因 为 它们 使 用 的 是 宿主 运行 时 (Java VM 和 .NET CLR) 中 的 
垃圾 回收 程序 ， 那 些 回收 程序 更 复杂 ， 但 是 不 依靠 引用 计数 ， 而 且 销 毁 对 象 和 关闭 文 
件 的 时 间 可 能 更 长 。 在 任何 情况 下 ， 包 括 CPython， 最 好 显 式 关闭 文件 ;而 关闭 文件 
的 最 可 靠 方 式 是 使 用 with 语 身 ， 它 能 保证 文件 一 定 会 被 关闭 ， 即 使 打开 文件 时 抛 出 了 
异常 也 无 妨 。 使 用 wtth， 上 述 代码 片段 变 成 了 : 
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with open('test.txt', 'wt', encoding='utf-8') as fp: 
fp.write('1, 2, 3') 


如 果 对 垃圾 回收 程序 感 兴趣 ， 可 以 阅读 Thomas Perl 4373, “Python Garbage Collector Impl- 
ementations: CPython, PyPy and GaS” (https://thp.i0/2012/python-gc/python_gc_final_2012-01-22. 
pdf) 。 就 是 从 那 篇 论文 中 ， 我 得 知 在 CPython 中 open() .write() 是 安全 的 。 


参数 传递 : 共享 传 参 


解释 Python 中 参数 传递 的 方式 时 ， 人 们 经 常 这 样 说 :“ 参 数 按 值 传递 ， 但 是 这 里 的 值 
是 引用 。” 这 人 么 说 没 错 ， 但 是 会 引起 误解 ， 因 为 在 旧式 语言 中 ， 最 常用 的 参数 传递 模式 
有 按 值 传递 (函数 得 到 参数 的 副本 ) 和 按 引用 传递 〈 函 数 得 到 参数 的 指针 )。 在 Python 
中 ， 函 数 得 到 参数 的 副本 ， 但 是 参数 始终 是 引用 。 因 此 ， 如 果 参 数 引用 的 是 可 变 对 象 ， 
那么 对 象 可 能 会 被 修改 ， 但 是 对 象 的 标识 不 变 。 此 外 ， 因 为 函数 得 到 的 是 参数 引用 的 
副本 ， 所 以 重新 绑 定 对 函数 外 部 没有 影响 。 读 过 《程序 设计 语言 一 一 实践 之 路 (第 3 
版 )》' (Michael L. Scott 著 ) 之 后 ， 尤 其 是 8.3.1 节 “ 参 数 模式 ”， 我 决定 采用 共享 伟 
参 (call by sharing) 这 个 说 法 。 


爱丽 丝 和 和 白 骑士 关于 那 首 歌 的 对 话 完 整 版 


我 喜欢 这 段 对 话 ， 但 是 放 在 一 章 的 开头 太 长 了 。 下 面 是 关于 白 骑 士 那 首 歌 的 完整 对 话 ， 
谈 到 了 曲名 和 得 名 的 缘由 。 


“你 不 开心 ,” 和 白 骑 士 用 一 种 忧虑 的 声调 说 ,“ 让 我 给 你 唱 一 首 歌 安 慰 你 吧 。” 

“ 那 首 歌 很 长 吗 ? ”爱丽 丝 问 道 ， 因 为 这 一 天 她 已 经 听 过 许多 诗 了 。 

“是 很 长 ,” 和 白 骑 士 说 , “不 过 它 非常 、 非 常 美 。 不 论 谁 听 到 我 唱 这 首 歌 一 一 或 者 
是 听 得 热泪 盈 眶 ， 或 者 是 一 一 ” 

“或 者 是 什么 咱 ? ”爱丽 丝 问 道 ， 因 为 白 骑 士 忽然 分 住 不 言语 了 。 

“或 者 是 没有 热泪 番 眶 ， 你 知道 。 这 首 歌 的 曲名 叫 作 :《 黑 线 蝠 的 眼睛 》。” 

“ 蛾 ， 那 是 一 首 歌 的 曲名 ， 是 吗 ? ”爱丽 丝 问 道 ， 她 试 着 使 自己 感到 有 兴趣 。 
“不 ， 你 不 明白,” 自 骑士 说 ， 看 来 有 些 心烦 的 样子 ,“ 那 是 人 家 这 么 叫 的 曲名 。 
真正 的 曲名 是 《 老 而 又 老 的 老头 儿 》。” 

“那么 我 刚才 应 该 说 ，' 那 首 歌 是 那么 被 人 叫 的 ”? ”爱丽 丝 自己 纠正 说 。 

“不 ， 你 不 应 该 这 么 说 。 这 是 另 一 码 事 | 这 首 歌 人 家 叫 作 《方法 和 手段 》。 不 过 
这 只 不 过 是 人 家 这 样 叫 ， 你 知道 1 ” 

“ 咽 ， 那 么 ， 那 究竟 是 什么 歌 呢 ? ”爱丽 丝 问 道 ， 她 这 一 次 完 完全 全 给 弄 糊 涂 了 。 
“我 正 是 准备 说 的 趾 ,” 自 骑士 说 道 ,“ 这 首 歌 真 正 是 《 坐 在 大 门 上 》; 曲子 是 我 
自己 发 明 的 。” 





Lewis Carroll 


《爱丽 丝 镜 中 奇遇 记 》， 第 8 章 “ 这 是 我 自己 的 发 明 ” 











注 11: 该 书 英文 版 ( 书 名 : Programming Language Pragmatics) 在 2015 年 12 月 已 出 第 4 版 。 一 一 编者 注 
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绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 自私 行为 。' 





Tan Bicking 
pip, virtualenv 和 Paste 等 项 目的 创建 者 

得 益 于 Python 数据 模型 ， 自 定义 类 型 的 行为 可 以 像 内 置 类 型 那样 自然 。 实 现 如 此 自然 的 行 

为 ， 靠 的 不 是 继承 ， 而 是 鸭子 类 型 (duck typing): 我 们 只 需 按 照 预 定 行为 实现 对 象 所 需 

的 方法 即 可 。 

前 一 章 分 析 了 很 多 内 置 对 象 的 结构 和 行为 ， 这 一 章 则 自己 定义 类 ， 而且 让 类 的 行为 跟 真 正 

的 Python 对 象 一 样 。 

这 一 章 接续 第 1 章 ， 说 明 如 何 实现 在 很 多 Python 类 型 中 常见 的 特殊 方法 。 

本 章 包含 以 下 话题 : 

。 支持 用 于 生成 对 象 其 他 表示 形式 的 内 置 函 数 (如 repr()、bytes()， 等 等 ) 

。 使 用 一 个 类 方法 实现 备 选 构造 方法 

。 扩展 内 置 的 format() 函数 和 str.format() 方法 使 用 的 格式 微 语言 

。 实现 只 读 属 性 

。 把 对 象 变 为 可 散 列 的 ， 以 便 在 集合 中 及 作为 dict 的 键 使 用 

。 利用 __slots__ 节省 内 存 


我 们 将 开发 一 个 简单 的 二 维 欧 儿 里 得 向 量 类 型 ， 在 这 个 过 程 中 涵盖 上 述 全 部 话题 。 
在 实现 这 个 类 型 的 中 间 阶 段 ， 我 们 会 讨论 两 个 概念 : 
































注 1: 摘自 Paste 的 风格 指南 (http://pythonpaste.org/StyleGuide.html)。 
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。 如 何以 及 何 时 使 用 @classmethod 和 @staticmethod 装饰 器 
。 Python 的 私有 属性 和 受 保护 属性 的 用 法 、 约 定 和 局 限 


我 们 从 对 象 表示 形式 函数 开始 。 


9.1 ”对象 表示 形式 


每 门面 向 对 象 的 语言 至 少 都 有 一 种 获取 对 象 的 字符 串 表 示 形 式 的 标准 方式 。Python 提供 了 
两 种 方式 。 











repr() 
以 便于 开发 者 理解 的 方式 返回 对 象 的 字符 串 表示 形式 。 
str() 





以 便于 用 户 理解 的 方式 返回 对 象 的 字符 串 表示 形式 。 
正如 你 所 知 ， 我 们 要 实现 repr 和 __str__ 特殊 方法 ,为 repr() 和 str() 提供 支持 。 


为 了 给 对 象 提供 其 他 的 表示 形式 ， 还 会 用 到 另外 两 个 特殊 方法 : _bytes__ 和 _format_ 。 
_bytes_ 方法 与 _str__ 方法 类 似 : bytes() 国 数 调 用 它 获取 对 象 的 字 节 序列 表示 形式 。 
而 _format “方法 会 被 内 置 的 format() 函数 和 str.format() 方法 调用 ， 使 用 特殊 的 格式 
代码 显示 对 象 的 字符 串 表 示 形 式 。 我 们 将 在 下 一 个 示例 中 讨论 bytes 方法， 随后 再 讨 
论 format ”方法 。 




















如 果 你 是 从 Python 2 转 过 来 的 ， 记 住 ， 在 Python 3 中 ,，__repr_、__str_ 和 
format 都 必须 返回 Unicode FFR (str 类 型 )。 只 有 __bytes__ 方法 应 该 
返回 字 节 序列 (bytes 类 型 )。 


























9.2 再 谈 向 量 类 

为 了 说 明 用 于 生成 对 象 表示 形式 的 众多 方法 ， 我 们 将 使 用 一 个 Vector2d 类 ， 它 与 第 1 章 中 
的 类 似 。 这 一 市 和 接 下 来 的 几 市 会 不 断 实现 这 个 类 。 我 们 期 望 Vector2d 实例 具有 的 基本 行 
为 如 示例 9-1 所 示 。 


示例 9-1 Vector2d 实例 有 多 种 表示 形式 
>>> v1 = Vector2d(3, 4) 
>>> print(vi.x, vi.y) © 
3.0 4.0 
>>> x, y= vl @ 
>>> X, y 
(3.0, 4.0) 
>>> v1 © 
Vector2d(3.0, 4.0) 
>>> vi_clone = eval(repr(v1)) @ 
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>>> v1 == vi_clone @ 

True 

>>> print(v1) QO 

(3.0, 4.0) 

>>> octets = bytes(v1) @ 

>>> octets 
b'd\\x00\\x00\\x00\\x00\\x00\\x00\\x08@\\x00\\x00\\x00\\x00\\x00\\x00\\x10@' 
>>> abs(v1) @ 

5.0 

>>> bool(v1), bool(Vector2d(0, 0)) © 
(True, False) 


O Vector2d 实例 的 分 量 可 以 直接 通过 属性 访问 (无 需 调用 读 值 方法 )。 
@ Vector2d 实例 可 以 拆 包 成 变量 元 组 。 
© repr 函数 调用 Vector2d 实例 ， 得 到 的 结果 类 似 于 构建 实例 的 源码 。 

O 这 里 使 用 eval 函数 ， 表 明 repr 函数 调用 vector2d 实例 得 到 的 是 对 构造 方法 的 准确 表述 。” 
O Vector2d 实例 支持 使 用 == 比较 ， 这 样 便于 测试 。 

O print 函数 会 调用 str 国 数 ， 对 vector2d 来 说 ， 输 出 的 是 一 个 有 序 对 。 

@ bytes 函数 会 调用 _bytes_” 方 法， 生成 实例 的 二 进 制 表示 形式 。 

© abs 函数 会 调用 __abs__ 方 法， 返回 Vector2d 实例 的 模 。 

© bool 函数 会 调用 bool 方法， 如果 Vector2d 实例 的 模 为 零 ， 返 回 False, TUIRE True, 


示例 9-1 中 的 Vector2d 类 在 vector2d_v0.py 文件 中 实现 ( 见 示例 9-2)。 这 上段 代码 基于 
示例 1-2，, 除了 = 之 外 (在 测试 中 用 得 到 )， 其 他 中 缀 运算 符 将 在 第 13 章 实现 。 现 在 ， 
Vector2d 用 到 了 几 个 特殊 方法 ， 这 些 方 法 提供 的 操作 是 Python 高 手 期 待 设计 良好 的 对 象 所 
提供 的 。 


示例 9-2 vector2d_v0.py: 目前 定义 的 都 是 特殊 方法 
from array import array 
import math 
























































class Vector2d: 
typecode = 'd' @ 


def __ init__(self, x, y): 
self.x = float(x) @ 
self.y = float(y) 
def __iter__(self): 
return (i for i in (self.x, self.y)) © 


def _ repr__(self): 
class_name = type(self).__name__ 
return '{}({!r}, {!r})'.format(class_name, *self) @ 


def __str__ (self): 
return str(tuple(self)) © 





TE 2: 这 里 使 用 eval 函数 克隆 对 象 是 为 了 说 明 repr 方法 。 使 用 copy.copy 国 数 克隆 实例 更 安全 也 更 快速 。 
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def _bytes_ (self): 
return (bytes([ord(self.typecode)]) + © 
bytes(array(self.typecode, self))) @ 


def _eq (self, other): 
return tuple(self) == tuple(other) O 


def __abs_ (self): 
return math.hypot(self.x, self.y) © 


def __bool__ (self): 
return bool(abs(self)) @ 


@ typecode 是 类 属性 ， 在 Vector2d 实例 和 字 节 序列 之 间 转 换 时 使 用 。 

O E init 方法 中 把 x 和 y 转换 成 浮 点 数 ， 尽 早 捕获 错误 ， 以 防 调用 Vector2d 函数 时 
传人 不 当 参 数 。 

加 定义 _iter 方法 ， 把 Vector2d 实例 变 成 可 和 迭代 的 对 象 ， 这 样 才能 拆 包 (例如 ，x，y = 
my_vector)。 这 个 方法 的 实现 方式 很 简单 ， 直 接 调用 生成 器 表达 式 一 个 接 一 个 产 出 分 量 

O _repr_ 方法 使 用 {!1r} 获取 各 个 分 量 的 表示 形式 ， 然 后 插值 ， 构 成 一 个 字符 串 ， 因为 
Vector2d 实例 是 可 迭代 的 对 象 ， 所 以 *self 会 把 x 和 y 分量 提供 给 format 函数 。 

© WATERY Vector2d 实例 中 可 以 轻松 地 得 到 一 个 元 组 ， 显 示 为 一 个 有 序 对 。 

O 为 了 生成 字 节 序列 ， 我 们 把 typecode 转换 成 字 节 序列 ， 然 后 …… 

(7 aaa WEE vector2d 实例 ， 得 到 一 个 数组 ， 再 把 数组 转换 成 字 节 序列 。 

O 为 了 快速 比较 所 有 分 量 ， 在 操作 数 中 构建 元 组 。 对 vector2d 实例 来 说 ， 可 以 这 样 做 ， 
不 过 仍 有 问题 。 参 见 下 面 的 警告 。 

O 模 是 x 和 y 分 量 构 成 的 直角 三 角形 的 斜 边 长 。 

@ __bool__ 方法 使 用 abs(self) 计算 模 ， 然 后 把 结果 转换 成 布尔 值 ， 因 此 ，0.9 是 False, 
非 零 值 是 True, 


示例 9-2 中 的 _eq 方法， 在 两 个 操作 数 都 是 vector2d 实例 时 可 用 ， 不 过 
拿 Vector2d 实例 与 其 他 具有 相同 数值 的 可 迭代 对 象 相 比 ， 结 果 也 是 True 
(如 Vector(3, 4) == [3，4])。 这 个 行为 可 以 视 作 特性 ， 也 可 以 视 作 缺陷 。 
第 13 章 讲 到 运算 符 重 载 时 才能 进一步 讨论 。 

































































我 们 已 经 定义 了 很 多 基本 方法 ， 但 是 显然 少 了 一 个 操作 : 使 用 bytes() 函数 生成 的 二 进 制 
表示 形式 重建 vector2d 实例 。 


9.3 备 选 构造 方法 


我 们 可 以 把 vector2d 实例 转换 成 字 节 序列 了 ; 同 理 ， 也 应 该 能 从 字 节 序列 转换 成 Vector2d 
实例 。 在 标准 库 中 探索 一 番 之 后 ， 我 们 发 现 array.array ee .frombytes (2.9.1 节 


























TE 3: 这 一 行 也 可 以 写成 yield self.x; yield.self.y, $ 14 章 会 进一步 讨论 iter “特殊 方法 、 生 成 器 
表达 式 和 yield 关键 字 。 











介绍 过 ) 正好 符合 需求 。 下 面 在 vector2d_vl.py 〈 见 示例 9-3) 中 为 Vector2d 定义 一 个 同名 
类 方法 。 


示例 9-3 vector2d_vl.py 的 一 部 分 : 这 段 代 码 只 列 出 了 frombytes 类 方法 ， 要 添加 到 
vector2d_v0.py 〈 见 示例 9-2) 中 定义 的 Vector2d 类 中 


@classmethod @ 

def frombytes(cls, octets): @ 
typecode = chr(octets[0]) © 
memv = memoryview(octets[1:]).cast(typecode) @ 
return cls(*menv) © 


@ 类 方法 使 用 classmethod 装饰 器 修饰 。 

O 不 用 传 入 self 参数 ， 相 反 ， 要 通过 cls 传人 类 本 身 。 

O 从 第 一 个 字 节 中 读 取 typecode。 

O 使 用 传人 的 octets 字 节 序列 创建 一 个 memoryview， 然 后 使 用 typecode 转换 。” 
O 拆 包 转 换 后 的 memoryview， 得 到 构造 方法 所 需 的 一 对 参数 。 


我 们 用 的 classmethod 装饰 器 是 Python 专用 的 ， 下 面 讲 解 一 下 。 























9.4 classmethod 与 staticmethod 


Python 教程 没有 提 到 classmethod 装饰 器 ， 也 没有 提 到 staticmethod。 学 过 Java 面向 对 象 
编程 的 人 可 能 觉得 奇 尾 ， 为 什么 Python 提供 两 个 这 样 的 装饰 器 ， 而 不 古 只 提供 一 个 ? 

先 来 看 classmethod。 示 例 9-3 展示 了 它 的 用 法 : 定义 操作 类 ， 而 不 是 操作 实例 的 方法 。 
classmethod 改变 了 调用 方法 的 方式 ， 因 此 类 方法 的 第 一 个 参数 是 类 本 身 ， 而 不 是 实例 。 
classmethod 最 常见 的 用 途 是 定义 备 选 构造 方法 ， 例 如 示例 9-3 中 的 frombytes。 注 意 ， 
frombytes 的 最 后 一 行使 用 cls 参数 构建 了 一 个 新 实例 ， 即 cls(*memv)。 按 照 约定 ， 类 方 
法 的 第 一 个 参数 名 为 cls (但 是 Python 不 介意 具体 怎么 命名 ) 。 

staticnethod 装饰 器 也 会 改变 方法 的 调用 方式 ， 但 是 第 一 个 参数 不 是 特殊 的 值 。 其 实 ， 静 
态 方法 就 是 普通 的 函数 ， 只 是 碰巧 在 类 的 定义 体 中 ， 而 不 是 在 模块 层 定义 。 示 例 9-4 对 
classmethod 和 staticmethod 的 行为 做 了 对 比 。 






































示例 9-4 ”比较 classmethod 和 staticmethod 的 行为 
>>> class Demo: 
@classmethod 
def klassmeth(*args): 
return args # @ 
@staticmethod 
def statmeth(*args): 
return args # @ 


>>> Demo.klassmeth() # © 
(<class '__main__.Demo'>,) 





HE 4: 2.9.2 节 简 单 介绍 过 memoryview， 说 明了 它 的 .cast 方法 。 
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>>> Demo.klassmeth('spam') 
(<class '__main__.Demo'>, 'spam') 
>>> Demo.statmeth() #@ 

O 


>>> Demo.statmeth('spam') 
('spam',) 
@ klassmeth 返回 全 部 位 置 参 数 。 
@ statmeth 也 是 。 
© 不 管 怎样 调用 Demo.klassmeth， 它 的 第 一 个 参数 始终 是 Demo 类 。 
@ Demo.statmeth 的 行为 与 普通 的 函数 相似 。 





classmethod 装饰 器 非常 有 用 ， 但 是 我 从 未 见 过 不 得 不 用 staticmethod 的 情 
况 。 如 果 想 定义 不 需要 与 类 交互 的 函数 ， 那 么 在 模块 中 定义 就 好 了 。 有 时 ， 
国 数 虽然 从 不 处 理 类 ， 但 是 函数 的 功能 与 类 紧密 相关 ， 因 此 想 把 它 放 在 近 
处 。 即 便 如 此 ， 在 同一 模块 中 的 类 前 面 或 后 面 定义 函数 也 就 行 了 。 








BLE, 我们 对 classmethod 的 作用 已 经 有 所 了 解 (而 且 知 道 staticmethod 不 是 特别 有 用 )， 
下 面 继 续 讨 论 对 象 的 表示 形式 ， 说 明 如 何 支 持 格 式 化 输出 。 


9.5 格式 化 显示 


内 置 的 format() 函数 和 str.format() 方 法 把 各 个 类 型 的 格式 化 方式 委托 给 相应 的 
.__format__(format_spec) 方法 。format_spec 是 格式 说 明 符 ， 它 是 : 


e format(my_obj，format_spec) 的 第 二 个 参数 ， 或 者 
e str.format() 方法 的 格式 字符 串 ， 人 里 代 换 字段 中 冒号 后 面 的 部 分 


例如 : 


>>> brl = 1/2.43 # BRL 到 USD 的 货币 兑换 比价 

>>> brl 

0.4115226337448559 

>>> format(brl, '0.4f') #@ 

"0.4115 

>>> '1 BRL = {rate:0.2f} USD'.format(rate=brl) # @ 
'1 BRL = 0.41 USD' 


O 格式 说 明 符 是 '0.4f ' 。 
O 格式 说 明 符 是 '0.2f' 。 代 换 字段 中 的 'rate' 子 串 是 字段 名 称 ， 与 格式 说 明 符 无 关 ， 但 
是 它 决 定 把 .fornat() 的 哪个 参数 传 给 代 换 字段 。 


第 2 条 标注 指出 了 一 个 重要 知识 点 :'{9.mass:5.3e}' 这 样 的 格式 字符 串 其 实 包 含 两 部 分 ， 




















注 5: 本 书 的 技术 审 校 之 一 Leonardo Rochael 不 同意 我 对 staticmethod 的 见解 ， 作 为 反驳 ， 他 推荐 阅读 Julien 
Danjou 写 的 一 篇 博客 文章 ， 题 为 “The Definitive Guide on How to Use Static, Class or Abstract Methods in 
Python” (https://julien.danjou.info/blog/2013/guide-python-static-class-abstract-methods)。Danjou 的 这 篇 文 
章 写 得 很 好 ， 我 推荐 阅读 。 但 是 ， 我 对 staticmethod 的 观点 依然 不 变 。 请 读者 自 辩 。 
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冒号 左边 的 '0.mass' 在 代 换 字段 句法 中 是 字段 名 ， 冒 号 后 面 的 '5.3e' 是 格式 说 明 符 。 格 
式 说 明 符 使 用 的 表示 法 叫 格 式 规范 微 语言 (“Format Specification Mini-Language” , https:// 
docs.python.org/3/library/string.html#formatspec ) 。 





如 果 你 对 format() 和 str.format() 都 感到 陌生 ， 根 据 我 的 教学 经 验 ， 最 好 
先 学 format() 函数 ， 因 为 它 只 使 用 格式 规范 微 语言 。 学 会 这 些 表示 法 之 后 ， 
再 阅读 格式 字符 串 句法 (“Format String Syntax”, https://docs.python.org/3/ 
library/string.html#formatspec)， 学 习 str.format() 方法 使 用 的 {:} 代 换 字段 
表示 法 (包含 转换 标志 !s、!r Filta). 











格式 规范 微 语言 为 一 些 内 置 类 型 提供 了 专用 的 表示 代码 。 比 如 ，b 和 x 分 别 表示 二 进 制 和 
十 六 进 制 的 int 类 型 ，f 表示 小 数 形式 的 Float 类 型 ， 而 % 表 示 百 分 数 形式 ; 

>>> format(42, 'b') 

'101010' 

>>> format(2/3, '.1%') 

"66.7%' 


格式 规范 微 语言 是 可 扩展 的 ， 因 为 各 个 类 可 以 自行 决定 如 何 解释 format_spec 参数 。 例 如 ， 
datetime 模块 中 的 类 ， 它 们 的 _format_ 方法 使 用 的 格式 代码 与 strftime() 国 数 一 样 。 
下 面 是 内 置 的 format() 函数 和 str.format() 方法 的 几 个 示例 : 

>>> from datetime import datetime 

>>> now = datetime.now() 

>>> format(now, '%H:%M:%S') 

'18:49:05' 

>>> "It's now {:%1:%M %p}". format (now) 

"It's now 06:49 PM" 


如 果 类 没有 定义 format 方法， 从 object 继承 的 方法 会 返回 str(my_object)。 我 们 为 
Vector2d 类 定义 了 __str_ 方 法， 因此 可 以 这 样 做 ; 


>>> v1 = Vector2d(3, 4) 
>>> format(v1) 
"(3:0, 4.0)' 


然而 ， 如 果 传 入 格式 说 明 符 ，object.__format__ 方法 会 抛 出 TypeError: 


>>> format(v1, '.3f') 
Traceback (most recent call last): 











TypeError: non-empty format string passed to object.__format__ 


我 们 将 实现 自己 的 微 语言 来 解决 这 个 问题 。 首 先 ， 假设 用 户 提 供 的 格式 说 明 符 是 用 于 格式 
化 向 量 中 各 个 浮 点 数 分 量 的 。 我 们 想 达 到 的 效果 是 : 


>>> v1 = Vector2d(3, 4) 
>>> format(v1) 

'(3.0, 4.0)' 

>>> format(v1, '.2f') 
"(3.00, 4.00)' 
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>>> format(v1, '.3e') 
'(3.000e+00, 4.000e+00)' 


实现 这 种 输出 的 ”format ”方法 如 示例 9-5 所 示 。 


示例 9-5 Vector2d.__format_ 方法 , 第 1 版 
# 在 Vector2d 类 中 定义 
def _ format_ (self, fmt_spec=''): 


components = (format(c, fmt_spec) for c in self) # © 
return '({}, {})'.format(*components) # @ 


O 使 用 内 置 的 format 函数 把 fmt_spec fy SI nl eI hare bk, PE aK RK 
化 字符 串 。 

O 把 格式 化 字符 串 代 入 公式 '(x，y) ' 中 。 

下 面 要 在 微 语言 中 添加 一 个 自 定义 的 格式 代码 : 如 果 格 式 说 明 符 以 'p' 结尾 ， 那 么 在 极 坐 

标 中 显示 向 量 ， 即 <r，6 >， 其 中 上 是 模 ，6 (西塔 ) 是 弧度 ， 其 他 部 分 ('p' 之 前 的 部 分 ) 

像 往 常 那样 解释 。 
为 自 定义 的 格式 代码 选择 字母 时 ， 我 会 避免 使 用 其 他 类 型 用 过 的 字母 。 在 格 
式 规 范 微 语言 (https://docs.python.org/3/library/string.html#formatspec) 中 我 
们 看 到 ， 整 数 使 用 的 代码 有 "bcdoxxn' ， 浮 点 数 使 用 的 代码 有 'eEfFgGn%'， 
字符 串 使 用 的 代码 有 's'。 因 此 ， 我 为 极 坐标 选 的 代码 是 'p' 。 各 个 类 使 用 
自己 的 方式 解释 格式 代码 ， 在 自 定义 的 格式 代码 中 重复 使 用 代码 字母 不 会 出 
错 ， 但 是 可 能 会 让 用 户 困惑 。 










































































对 极 坐 标 来 说 ， 我 们 已 经 定义 了 计算 模 的 __abs_ 方法 ， 因 此 还 要 定义 一 个 简单 的 angle 
方法 ,使 用 math.atan2() 函数 计算 角度 。angle 方法 的 代码 如 下 : 
# 在 Vector2d 类 中 定义 


def angle(self): 
return math.atan2(self.y, self.x) 


这 样 便 可 以 增强 format 方法， 计算 极 坐标 ， 如 示例 9-6 所 示 。 
示例 9-6 Vector2d.__format_ 方法 , 第 2 版 ,现在 能 计算 极 坐标 了 


def _ format__(self, fmt_spec=''): 
if fmt_spec.endswith('p'): @ 
fmt_spec = fmt_spec[:-1] @ 
coords = (abs(self), self.angle()) © 
outer_fmt = '<{}, {}>' @ 
else: 
coords = self @ 
outer_fmt = '({}, {})' © 
components = (format(c, fmt_spec) for c in coords) @ 
return outer_fmt.format(*components) © 


O 如 果 格 式 代码 以 'p' 结尾 ， 使 用 极 坐 标 。 











fe 
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@ 从 fmt_spec 中 删除 'p' 后 绥 。 

© 构建 一 个 元 组 ， 表 示 极 坐标 : (magnitude, angle), 

O 把 外 层 格式 设 为 一 对 尖 括 号 。 

O 如 果 不 以 'p' 结尾 ， 使 用 self 的 x 和 y 分 量 构建 直角 坐标 。 
O 把 外 层 格式 设 为 一 对 圆 括号 。 

O 使 用 各 个 分 量 生成 可 迭代 的 对 象 ， 构 成 格式 化 字符 串 。 

O 把 格式 化 字符 串 代 入 外 层 格式 。 


示例 9-6 中 的 代码 得 到 的 结果 如 下 : 


>>> format(Vector2d(1, 1), 'p') 
"<1.4142135623730951, 0.7853981633974483>' 
>>> format(Vector2d(1, 1), '.3ep') 
'<1.414e+00, 7.854e-01>' 

>>> format(Vector2d(1, 1), '0.5fp') 
'<1.41421, 0.78540>' 


如 本 节 所 示 ， 为 用 户 自 定 义 的 类 型 扩展 格式 规范 微 语言 并 不 难 。 


下 面 换个 话题 ， 它 不 仅 事 关 对 象 的 外 观 ， 我 们 将 把 vector2d 变 成 可 散 列 的 ， 这 样 便 可 以 构 
建 向 量 集合 ， 或 者 把 向 量 当 作 dict 的 键 使 用 。 不 过 在 此 之 前 ， 必 须 让 向 量 不 可 变 。 详 情 参 
见 下 一 节 。 


9.6 可 散 列 的 Vector2d 


按照 定义 ， 目 前 vector2d 实例 是 不 可 散 列 的 ， 因 此 不 能 放 入 集合 (set) H: 


>>> v1 = Vector2d(3, 4) 
>>> hash(v1) 
Traceback (most recent call last): 
































7 

















TypeError: unhashable type: 'Vector2d' 
>>> set([v1]) 
Traceback (most recent call last): 


TypeError: unhashable type: 'Vector2d' 


为 了 把 vector2d 实例 变 成 可 散 列 的 ， 必 须 使 用 hash DA GRE _ea__ 777K, HTH 
已 经 实现 了 )。 此 外 ， 还 要 让 向 量 不 可 变 ， 详 情 参见 第 3 章 的 附注 栏 “什么 是 可 散 列 的 数 
据 类 型 ”。 
目前 ， 我 们 可 以 为 分 量 赋 新 值 ， 如 v1.x = 7, Vector2d 类 的 代码 并 不 阻止 这 么 做 。 我 们 想 
要 的 行为 是 这 样 的 : 

>>> v1.x, vi.y 

(3.0, 4.0) 


>>> v1.x = 7 
Traceback (most recent call last): 




















AttributeError: can't set attribute 
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为 此 ， 我 们 要 把 x Aly 分 量 设 为 只 读 特 性 ， 如 示例 9-7 所 示 。 


示例 9-7 vector2d_v3.py: 这 里 只 给 出 了 让 Vector2d 不 可 变 的 代码 ， 完 整 的 代码 清单 在 
示例 9-9 中 
class Vector2d: 


typecode = 'd' 


def _ init__(self, x, y): 
self.__x = float(x) © 
self.__y = float(y) 


@property @ 
def x(self): © 
return self._x @ 


@property © 
def y(self): 
return self.__y 


def _iter__ (self): 
return (i for i in (self.x, self.y)) @ 


# 下 面 是 其 他 方法 (排版 需要 ,省 略 了 ) 


O 使 用 两 个 前 导 下 划 线 〈 尾 部 没有 下 划 线 ， 或 者 有 一 个 下 划 线 ) ， 把 属性 标记 为 私有 的 。 À 

© @property 装饰 器 把 读 值 方法 标记 为 特性 。 

O 读 值 方法 与 公开 属性 同名 ， 都 是 x。 

O 直接 返回 self.__x, 

© 以 同样 的 方式 处 理 y 特性 。 

O 需要 读 取 x 和 y 分 量 的 方法 可 以 保持 不 变 ， 通 过 self.x 和 self.y 读 取 公 开 特 性 ， 而 不 
必 读 取 私 有 属性 ， 因 此 上 述 代码 清单 省 略 了 这 个 类 的 其 他 代码 。 














Vector.x 和 Vector.y 是 只 读 特性 。 读 写 特性 在 第 19 章 讨论 ， 届 时 会 深入 说 
明 eproperty 装饰 器 。 





注意 ， 我 们 让 这 些 向 量 不 可 变 是 有 原因 的 ， 因 为 这 样 才 能 实现 _hash_ 方 法。 这 个 方法 
应 该 返回 一 个 整数 ， 理 想 情 况 下 还 要 考虑 对 象 属性 的 散 列 值 (eq “方法 也 要 使 用 ) ， 因 
为 相等 的 对 象 应 该 具有 相同 的 散 列 值 。 根 据 特殊 方法 hash 的 文档 (https://docs.python. 
org/3/reference/datamodel.html) ， 最 好 使 用 位 运算 符 异 或 〈^) 混合 各 分 量 的 散 列 值 一 一 我 
(Aw Afi, Vector2d._hash_ 方法 的 代码 十 分 简单 ， 如 示例 9-8 所 示 。 


示例 9-8 vector2d_v3.py: 实现 _hash_ ”方法 
# 在 Vector2d 类 中 定义 
































def _ hash__(self): 
return hash(self.x) * hash(self.y) 








TE 6: 根据 本 章 开头 引用 的 那 名 话 ， 这 不 符合 Ian Bicking 的 建议 。 私 有 属性 的 优 缺点 参见 后 面 的 9.7 节 。 
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添加 _hash 方法 之 后 ， 向 量变 成 可 散 列 的 了 : 


>>> v1 = Vector2d(3, 4) 

>>> v2 = Vector2d(3.1, 4.2) 

>>> hash(v1), hash(v2) 

(7, 384307168202284039) 

>>> set([v1, v2]) 

{Vector2d(3.1, 4.2), Vector2d(3.0, 4.0)} 





要 想 创建 可 散 列 的 类 型 ， 不 一 定 要 实现 特性 ， 也 不 一 定 要 保护 实例 属性 。 只 
需 正 确 地 实现 _hash_ 和 __eq__ 方 法 即 可 。 但 是 ， 实 例 的 散 列 值 绝 不 应 该 变 
化 ， 因 此 我 们 借 机 提 到 了 只 读 特性 。 




















如 果 定 义 的 类 型 有 标量 数值 ， 可 能 还 要 实现 _int_ 和 float 方法 (分 别 被 int() 和 
Float() 构造 函数 调用 )， 以 便 在 某 些 情况 下 用 于 强制 转换 类 型 。 此 外 ， 还 有 用 于 支持 内 置 
的 complex() 构造 函数 的 __complex__ 方法 。Vector2d 或 许 应 该 提供 _complex__ 方法 , 不 
过 我 把 它 留 作 练 习 给 读者 。 

我 们 一 直 在 定义 Vector2d 类 ， 也 列 出 了 很 多 代码 片段 ， 示 例 9-9 是 整理 后 的 完整 代码 清 
单 ， 保 存在 vector2d_v3.py 文件 中 ， 包 含 开 发 时 我 编写 的 全 部 doctest。 














= 


示例 9-9 vector2d_v3.py: 完整 版 
A two-dimensional vector class 


>>> v1 = Vector2d(3, 4) 

>>> print(v1.x, vi.y) 

3.0 4.0 

>>> X, y = v1 

>>> X, y 

(3.0, 4.0) 

>>> v1 

Vector2d(3.0, 4.0) 

>>> vi_clone = eval(repr(v1)) 

>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0) 

>>> octets = bytes(v1) 

>>> octets 
b'd\\x00\\x00\\x00\\x00\\x00\\x00\\x08@\\x00\\x00\\x00\\x00\\x00\\x00\\x10@' 
>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector2d(0, 0)) 
(True, False) 


Test of **.frombytes()** class method: 


>>> vi_clone = Vector2d.frombytes(bytes(v1)) 
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>>> vi_clone 
Vector2d(3.0, 4.0) 
>>> v1 == vi_clone 
True 


Tests of ``format()`` with Cartesian coordinates: 


>>> format(v1) 

'(3.0, 4.0)' 

>>> format(v1, '.2f') 
'(3.00, 4.00)' 

>>> format(v1, '.3e') 
"(3.000e+00, 4.000e+00) ' 


Tests of the ``angle`` method:: 


>>> Vector2d(0, 0).angle() 

0.0 

>>> Vector2d(1, 0).angle() 

0.0 

>>> epsilon = 10**-8 

>>> abs(Vector2d(0, 1).angle() - math.pi/2) < epsilon 
True 

>>> abs(Vector2d(1, 1).angle() - math.pi/4) < epsilon 
True 


Tests of ``format()`` with polar coordinates: 


>>> format(Vector2d(1, 1), 'p') # doctest:+ELLIPSIS 
'<1.414213..., 0.785398...>' 

>>> format(Vector2d(1, 1), '.3ep') 

'<1.414e+00, 7.854e-01>' 

>>> format(Vector2d(1, 1), '0.5fp') 

'<1.41421, 0.78540>' 


Tests of ‘x and `y`ò read-only properties: 


>>> v1.x, vi.y 

(3.0, 4.0) 

>>> vi.x = 123 

Traceback (most recent call last): 


AttributeError: can't set attribute 


Tests of hashing: 


>>> v1 = Vector2d(3, 4) 

>>> v2 = Vector2d(3.1, 4.2) 
>>> hash(v1), hash(v2) 

(7, 384307168202284039) 
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>>> len(set([v1, v2])) 
2 


from array import array 
import math 


class Vector2d: 
typecode = 'd' 


def __ init__(self, x, y): 
self. x = float(x) 
self.__y = float(y) 


@property 
def x(self): 
return self. x 


@property 
def y(self): 


return self.__y 


def __iter__(self): 
return (i for i in (self.x, self.y)) 


def __repr__ (self): 
class_name = type(self).__name__ 
return '{}({!r}, {!r})'.format(class_name, *self) 


def _str (self): 
return str(tuple(self)) 


def __bytes__(self): 
return (bytes([ord(self.typecode)]) + 
bytes(array(self.typecode, self))) 


def _eq_ (self, other): 
return tuple(self) == tuple(other) 


def __hash__(self): 
return hash(self.x) ^ hash(self.y) 


def __abs_ (self): 
return math.hypot(self.x, self.y) 


def __bool__ (self): 
return bool(abs(self)) 


def angle(self): 
return math.atan2(self.y, self.x) 


def _ format (self, fmt_spec=''): 
if fmt_spec.endswith('p'): 
fmt_spec = fmt_spec[:-1] 
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coords = (abs(self), self.angle()) 

outer_fmt = '<{}, {}>' 
else: 

coords = self 

outer_fmt = '({}, {})' 
components = (format(c, fmt_spec) for c in coords) 
return outer_fmt.format(*components) 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[0]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(*menmv) 


小 结 一 下 ， 前 两 节 说 明了 一 些 特 殊 方法 ， 要 想得到 功能 完善 的 对 象 ， 这 些 方法 可 能 是 必 备 
的 。 当 然 ， 如 果 你 的 应 用 用 不 到 ， 就 没 必要 全 部 实现 这 些 方法 。 客 户 并 不 关心 你 的 对 象 是 
否 符合 Python 风格 。 


示例 9-9 中 定义 的 Vector2d 类 只 是 为 了 教学 ， 我 们 为 它 定 义 了 许多 与 对 象 表示 形式 有 关 的 
特殊 方法 。 不 是 每 个 用 户 自 定义 的 类 都 要 这 样 做 。 

下 一 节 暂 时 不 继续 定义 Vector2d 类 了 ， 我 们 将 讨论 Python 对 私有 属性 〈 带 两 个 下 划 线 前 
绥 的 属性 ， 如 self. x) 的 设计 方式 及 其 缺点 。 


9.7 ”Python 的 私有 属性 和 “ 受 保护 的 ”属性 


Python 不 能 像 Java 那样 使 用 private 修饰 符 创建 私有 属性 ， 但 是 Python 有 个 简单 的 机 制 ， 
能 避免 子 类 意外 覆盖 “私有 ”属性 。 


举 个 例子 。 有 人 编写 了 一 个 名 为 Dog 的 类 ， 这 个 类 的 内 部 用 到 了 mood 实例 属性 ， 但 是 没有 
将 其 开放 。 现 在 ， 你 创建 了 Dog 类 的 子 类 : Beagte。 如 果 你 在 毫 不 知情 的 情况 下 又 创建 了 
ZA mood 的 实例 属性 ， 那 么 在 继承 的 方法 中 就 会 把 Dog 类 的 mood 属性 覆盖 掉 。 这 是 个 难 
以 调试 的 问题 。 
为 了 避免 这 种 情况 ， 如 果 以 mood 的 形式 〈 两 个 前 导 下 划 线 ， 尾 部 没有 或 最 多 有 一 个 下 划 
线 ) 命名 实例 属性 ，Python 会 把 属性 名 存 和 实例 的 _dict_ 属性 中 ， 而 且 会 在 前 面 加 上 一 
个 下 划 线 和 类 名 。 因 此 ， 对 Dog 类 来 说 ，__mood 会 变 成 __Dog_mood; 对 Beagle 类 来 说 ， 会 
变 成 __Beagle__mood。 这 个 语言 特性 叫 名 称 改 号 (name mangling) 。 


示例 9-10 以 示例 9-7 中 定义 的 Vector2d 类 为 例 来 说 明 名 称 改 写 。 
示例 9-10 私有 属性 的 名 称 会 被 “改写 ”"， 在 前 面 加 上 下 划 线 和 类 名 


>>> v1 = Vector2d(3, 4) 

>>> v1.__dict__ 

{'_Vector2d__y': 4.0, '_Vector2d__x': 3.0} 
>>> v1._Vector2d__x 

3.0 


名 称 改写 是 一 种 安全 措施 ， 不 能 保证 万 无 一 失 : 它 的 目的 是 避免 意外 访问 ， 不 能 防止 故意 
做 错 事 (图 9-1 也 是 一 种 保护 装置 ) 。 
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图 9-1: 把 手 上 的 盖子 是 种 保护 装置 ， 而 不 是 安全 装置 : 它 能 避免 意外 触动 把 手 ， 但 是 不 能 防止 有 意 
转动 


如 示例 9-10 中 的 最 后 一 行 所 示 ， 只 要 知道 改写 私有 属性 名 的 机 制 ， 任 何人 都 能 直接 读 取 私 
有 属性 一 一 这 对 调试 和 序列 化 倒是 有 用 。 此 外 ， 只 要 编写 v1._Vector_x = 7 这 样 的 代码 ， 
就 能 轻松 地 为 Vector2d 实例 的 私有 分 量 直 接 赋值 。 如 果真 在 生产 环境 中 这 么 做 了 ， 出 问题 
时 可 别 抱怨 。 


不 是 所 有 Python 程序 员 都 喜欢 名 称 改 写 功 能 ， 也 不 是 所 有 人 都 喜欢 self. x 这 种 不 对 称 
的 名 称 。 有 些 人 不 喜欢 这 种 名 法， 他们 约定 使 用 一 个 下 划 线 前 绥 编 写 “ 受 保护 ”的 属性 
(如 seLf._x)。 批 评 使 用 两 个 下 划 线 这 种 改写 机 制 的 人 认为 ， 应 该 使 用 命名 约定 来 避免 意 
外 和 覆盖 属性 。 本 章 开头 引用 了 多 产 的 Ian Bicking 的 一 句 话 ， 那 句 话 的 完整 表述 如 下 : 


绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 自私 行为 。 如 果 担 心 名 称 冲突 ， 应 该 
明确 使 用 一 种 名 称 改写 方式 (如 _MyThing_blahblah)。 这 其 实 与 使 用 双 下 划 线 一 样 ， 
不 过 自己 定 的 规则 比 双 下 划 线 易于 理解 。” 
Python 解释 器 不 会 对 使 用 单个 下 划 线 的 属性 名 做 特殊 处 理 ， 不 过 这 是 很 多 Python 程序 员 
严格 遵守 的 约定 , 他 们 不 会 在 类 外 部 访问 这 种 属性 。 遵守 使 用 一 个 下 划 线 标记 对 象 的 私有 
属性 很 容易 ， 就 像 遵 守 使 用 全 大 写字 母 编 写 常量 那样 容易 。 
Python 文档 的 某 些 角落 把 使 用 一 个 下 划 线 前 绥 标 记 的 属性 称 为 “ 受 保护 的 ”属性 。"” 使 用 
self._x 这 种 形式 保护 属性 的 做 法 很 常见 ， 但 是 很 少 有 人 把 这 种 属性 叫 作 “ 受 保护 的 ” 属 
性 。 有 些 人 甚至 将 其 称 为 “私有 ”属性 。 
总 之 ，Vvector2d 的 分 量 都 是 “私有 的 ”， 而 且 vector2d 实例 都 是 “不 可 变 的 "。 我 用 了 两 对 







































































注 7: 摘自 Paste 的 风格 指南 (http://pythonpaste.org/StyleGuide.html ) 。 

注 8: 不 过 在 模块 中 ， 顶 层 名 称 使 用 一 个 前 导 下 划 线 的 话 ， 的 确 会 有 影响 : 对 From mymod import * 来 说 ，mymod 中 
前 级 为 下 划 线 的 名 称 不 会 被 导入 。 然 而 ， 依 旧 可 以 使 用 from mymod import _privatefunc 将 其 导入 。Python 教 
程 的 6.1 节 “More on Modules”(https://docs.python.org/3/tutorial/modules.html#more-on-modules) 说 明了 这 一 点 。 
注 9: gettext 模块 中 就 有 一 个 例子 (https://docs.python.org/3/library/gettext.html#gettext.NullTranslations)。 
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引号 ， 这 是 因为 并 不 能 真正 实现 私有 和 不 可 变 。” 


下 面 继续 定义 vector2d 类 。 在 最 后 一 节 中 ， 我 们 将 讨论 一 个 特殊 的 属性 (不 是 方法 )， 它 
会 影响 对 象 的 内 部 存储 ， 对 内 存 用 量 可 能 也 有 重大 影响 ， 不 过 对 对 象 的 公开 接口 没什么 影 
响 。 这 个 属性 是 _slots__ 


9.8 使 用 _slots_ 类 属性 节省 空间 


默认 情况 下 ，Python 在 各 个 实例 中 名 为 dict 的 字典 里 存储 实例 属性 。 如 3.9.3 市 所 述 ， 
为 了 使 用 底层 的 散 列表 提升 访问 速度 ， 字 典 会 消耗 大 量 内 存 。 如 采 要 处 理 数 百 万 个 属性 不 
多 的 实例 ， 通 过 _slots_ 类 属性 ， 能 节省 大 量 内 存 ， 方 法 是 让 解释 器 在 元 组 中 存储 实例 
属性 ， 而 不 用 字典 。 























继承 自 超 类 的 slots 属性 没有 效果 。Python 只 会 使 用 各 个 类 中 定义 的 
_stLots JBE. 








定义 _stots_ 的 方式 是 ， 创 建 一 个 类 属性 ， 使 用 _stots_ 这 个 名 字 ， 并 把 它 的 值 设 为 
一 个 字符 串 构 成 的 可 和 迭代 对 象 ， 其 中 各 个 元 素 表示 各 个 实例 属性 。 我 喜欢 使 用 元 组 ， 因 为 
这 样 定义 的 _stots__ 中 所 含 的 信息 不 会 变化 ， 如 示例 9-11 所 示 。 


示例 9-11 vector2d_v3_slots.py: 只 在 Vector2d 类 中 添加 了 __slots_ 属性 
class Vector2d: 
_slots = ('_x', '_y') 


























typecode = 'd' 





# 下 面 是 各 个 方法 ( 因 排 版 需要 而 省 略 了 ) 


在 类 中 定义 slots 属性 的 目的 是 告诉 解释 器 :“ 这 个 类 中 的 所 有 实例 属性 都 在 这 儿 
了 ! ”这 样 ，Python 会 在 各 个 实例 中 使 用 类 似 元 组 的 结构 存储 实例 变量 ， 从 而 避免 使 用 消 
耗 内 存 的 dict 属性 。 如 果 有 数 百 万 个 实例 同时 活动 ， 这 样 做 能 省 大 量 内 存 。 


如 果 要 处 理 数 百 万 个 数值 对 象 ， 应 该 使 用 NumPy 数组 (参见 2.9.3 节 )。 
NumPy 数组 能 高 效 使 用 内 存 ， 而 且 提 供 了 高 度 优化 的 数值 处 理 函 数 ， 其 中 很 
多 都 一 次 操作 整个 数组 。 我 定义 Vector2d 类 的 目的 是 讨论 特殊 方法 ， 因 为 我 
不 太 想 随便 举 些 例子 









































在 示例 9-12 中 ， 我 们 运行 了 两 个 构建 列表 的 脚本 ， 这 两 个 脚本 都 使 用 列表 推导 创建 10 000 000 
个 Vector2d 实例 。mem_test.py 脚本 的 命令 行 参数 是 一 个 模块 的 名 字 ， 模 块 中 定义 了 不 同 








TE 10: 如 果 这 个 说 法 让 你 感到 广 形 ， 而 且 让 你 觉得 在 这 方面 Python 应 该 向 Java 看 齐 的 话 ， 那 么 别 去 读本 
章 的 “杂谈 "”， 我 在 其 中 对 Java 的 private 修饰 符 的 相对 强度 进行 了 探讨 。 








版 本 的 Vector2d 类 。 第 一 次 运行 使 用 的 是 vector2d_v3.Vector2d 类 (在 示例 9-7 中 定义 )， 
第 二 次 运行 使 用 的 是 定义 了 __slots__ AJ vector2d_v3_slots.Vector2d 类 。 





示例 9-12 mem_test.py 使 用 指定 模块 (如 vector2d_v3.py) 中 定义 的 Vector2d 类 创建 
10 000 000 个 实例 
$ time python3 mem_test.py vector2d_v3.py 
Selected Vector2d type: vector2d_v3.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,623,808 
Final RAM usage: 1,558,482,944 


real 0m16.721s 
user 0m15.568s 
sys 0m1.149s 
$ time python3 mem_test.py vector2d_v3_slots.py 
Selected Vector2d type: vector2d_v3_slots.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,718,016 
Final RAM usage: 655,466,496 


real 0m13.605s 
user 0m13.163s 
sys 0m0.434s 


如 示例 9-12 所 示 ， 在 10 000 000 个 Vector2d 实例 中 使 用 _dict ”属性 时 ，RAM 用 量 高 
ik 1.5GB， 而 在 Vector2d 类 中 定义 _slots_ 属性 之 后 ，RAM 用 量 降 到 了 655MB 。 此 外 ， 
定义 了 _slots_ 属性 的 版 本 运行 速度 也 更 快 。 这 个 测试 中 使 用 的 mem_test.py 脚本 其 实 只 
用 于 加 载 一 个 模块 、 检 查 内 存 用 量 和 格式 化 结果 ， 所 用 的 代码 与 本 章 没 有 太 大 关联 ， 因 此 
放 入 附录 A 中 的 示例 A-4 里 。 


在 类 中 定义 _stots_ 属性 之 后 ， 实 例 不 能 再 有 _slots__ 中 所 列 名 称 之 外 
的 其 他 属性 。 这 只 是 一 个 副作用 ， 不 是 _slots_ 存在 的 真正 原因 。 不 要 使 
用 __slots__ 属性 禁止 类 的 用 户 新 增 实例 属性 。__slots__ 是 用 于 优化 的 ,不 
是 为 了 约束 程序 员 。 





















































然而 ,“ 市 省 的 内 存 也 可 能 被 再 次 吃 掉 ”: 如果 把 '_dict__' 这 个 名 称 添加 到 slots 
中 ， 实 例会 在 元 组 中 保存 各 个 实例 的 属性 ， 此 外 还 支持 动态 创建 属性 ， 这 些 属性 存储 在 常 
规 的 _dict_ 中 。 当 然 , 把 '__dict__' 添加 到 __slots__ PERLER SOR, wk 
于 各 个 实例 的 静态 属性 和 动态 属性 的 数量 及 其 用 法 。 粗 心 的 优化 甚至 比 提早 优化 还 糟糕 。 


此 外 ， 还 有 一 个 实例 属性 可 能 需要 注意 ， 即 -weakref_ 属性 ， 为 了 让 对 和 象 支 持 弱 引用 
(参见 8.6 节 )， 必 须 有 这 个 属性 。 用 户 定义 的 类 中 默认 就 有 _weakref 属性 。 可 是 ， 如 
REP EM _slots_ 属性 ， 而 且 想 把 实例 作为 弱 引 用 的 目标 ， 那 么 要 把 "weakref_ 
添加 到 _slots__ 中 。 


él, _slots_ 属性 有 些 需 要 注意 的 地 方 ， 而 且 不 能 滥用 ， 不 能 使 用 它 限制 用 户 能 赋值 
的 属性 。 处 理 列表 数据 时 _slots_ 属性 最 有 用 ， 例 如 模式 固定 的 数据 库 记 录 ， 以 及 特大 
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型 数据 集 。 然 而 ， 如 果 你 经 常 处 理 大 量 数据 ， 一 定 要 了 解 一 下 NumPy (http://www.numpy. 
org) ; 此 外 ， 数 据 分 析 库 pandas (http://pandas.pydata.org) 也 值得 了 解 ， 这 个 库 可 以 处 理 
非 数 值 数据 ， 而 且 能 导入 /导出 很 多 不 同 的 列表 数据 格式 。 


__slots 的 问题 
总 之 ， 如 果 使 用 得 当 ，_ stLots 能 显著 节省 内 存 ， 不 过 有 几 点 要 注意 。 


。 每 个 子 类 都 要 定义 _slots_ 属性 ， 因 为 解释 器 会 忽略 继承 的 __slots_ 属性 。 

。 实例 只 能 拥有 _slots_ 中 列 出 的 属性 ， 除 非 把 '_dict_' 加 入 _slots_ 中 (这 样 做 
就 失去 了 市 省 内 存 的 功效 )。 

。 如 果 不 把 '__weakref_' 加 入 _slots_， 实 例 就 不 能 作为 弱 引 用 的 目标 。 


如 果 你 的 程序 不 用 处 理 数 百 万 个 实例 ， 或 许 不 值得 费劲 去 创建 不 寻常 的 类 ， 诸 如 其 实例 可 
能 不 接受 动态 属性 或 者 不 支持 弱 引 用 。 与 其 他 优化 措施 一 样 ， 仅 当权 衡 当 下 的 需求 并 仔细 
搜集 资料 后 证 明确 实 有 必要 时 ， 才 应 该 使 用 __slots__ 属性 。 


本 章 最 后 一 个 话题 讨论 如 何在 实例 和 子 类 中 覆盖 类 属性 。 


99 覆盖 类 属性 

Python 有 个 很 独特 的 特性 : 类 属性 可 用 于 为 实例 属性 提供 默认 值 。Vector2d 中 有 个 typecode 
类 属性 ，_bytes “方法 两 次 用 到 了 它 ， 而 且 都 故意 使 用 self.typecode 读 取 它 的 值 。 因 为 
Vector2d 实例 本 身 没 有 typecode 属性 ， 所 以 seLf.typecode 默认 获取 的 是 Vector2d.typecode 
类 属性 的 值 。 


但 是 ， 如 果 为 不 存在 的 实例 属性 赋值 ， 会 新 建 实例 属性 。 假 如 我 们 为 typecode 实例 属性 赋 
值 ， 那 么 同名 类 属性 不 受 影 响 。 然 而 ， 自 此 之 后 ， 实 例 读 取 的 self.typecode 是 实例 属性 
typecode， 也 就 是 把 同名 类 属性 遮盖 了 。 借 助 这 一 特性 ， 可 以 为 各 个 实例 的 typecode 属性 
定制 不 同 的 值 。 

Vector2d.typecode 属性 的 默认 值 是 'd' ， 即 转换 成 字 节 序列 时 使 用 8 字 节 双 精 度 序 点 数 表 
示 向 量 的 各 个 分 量 。 如 果 在 转换 之 前 把 vector2d 实例 的 typecode 属性 设 为 'f' ， 那 么 使 用 
4 字 节 单 精度 浮 点 数 表 示 各 个 分 量 ， 如 示例 9-13 所 示 。 





































































































我 们 在 讨论 如 何 添 加 自 定义 的 实例 属性 ， 因 此 示例 9-13 使 用 的 是 示例 9-9 中 
不 带 __slots__ 届 性 的 Vector2d 类 。 














示例 9-13 ” 设 定 从 类 中 继承 的 typecode 属性 ， 自 定义 一 个 实例 属性 
>>> from vector2d_v3 import Vector2d 
>>> v1 = Vector2d(1.1, 2.2) 
>>> dumpd = bytes(v1) 
>>> dumpd 
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b' d\x9a\x99\x99\x99\x99\x99\xf1? \x9a\x99\x99\x99\x99\x99\x01@' 
>>> len(dumpd) # @ 
17 
>>> vi.typecode = 'f' #@ 
>>> dumpf = bytes(v1) 
>>> dumpf 
b'f\xcd\xcc\x8c?\xcd\xcc\x0c@' 
>>> len(dumpf) # © 
9 
>>> Vector2d.typecode # @ 
'd' 
O 默认 的 字 节 序列 长 度 为 17 个 字 节 。 
@ 把 v1 实例 的 typecode 属性 设 为 'f'。 
© 现在 得 到 的 字 节 序列 是 9 个 字 节 长 。 
© Vector2d.typecode 属性 的 值 不 变 ， 只 有 v1 实例 的 typecode 属性 使 用 'f' 。 


现在 你 应 该 知道 为 什么 要 在 得 到 的 字 节 序列 前 面 加 上 typecode AET: 为 了 支持 不 同 的 格式 。 
如 有 果 想 修改 类 属性 的 值 ， 必 须 直接 在 类 上 修改 ， 不 能 通过 实例 修改 。 如 有 果 想 修改 所 有 实例 
(没有 typecode 实例 变量 ) 的 typecode 属性 的 默认 值 ， 可 以 这 么 做 : 


>>> Vector2d.typecode = 'f' 


然而 ， 有 种 修改 方法 更 符合 Python 风格 ， 而 且 效果 持久 ， 也 更 有 针对 性 。 类 属性 是 公开 
的 ， 因 此 会 被 子 类 继承 ， 于 是 经 常会 创建 一 个 子 类 ， 只 用 于 定制 类 的 数据 属性 。Django 基 
于 类 的 视图 就 大 量 使 用 了 这 个 技术 。 有 具体 做 法 如 示例 9-14 所 示 。 


示例 9-14 ShortVector2d 是 vector2d HT, KAFA% typecode 的 默认 值 
>>> from vector2d_v3 import Vector2d 
>>> class ShortVector2d(Vector2d): # © 
typecode = 'f' 












































>>> sv = ShortVector2d(1/11, 1/27) #@ 

>>> SV 

ShortVector2d(0.09090909090909091, ©.037037037037037035) # © 
>>> len(bytes(sv)) #@ 

9 


@ 把 Shortvector2d 定义 为 Vector2d 的 子 类 ， 只 用 于 覆盖 typecode 类 属性 。 
O 为 了 演示 ， 创 建 一 个 Shortvector2d 实例 ， 即 sv, 

© 查看 sv 的 repr 表示 形式 。 

O 确认 得 到 的 字 节 序列 长 度 为 9 字 节 ， 而 不 是 之 前 的 17 字 节 。 


这 也 说 明了 我 在 Vecto2d.__repr__ 方法 中 为 什么 没有 硬 编码 class_name 的 值 ， 而 是 使 用 
type(self).__name__ 获取 ， 如 下 所 示 : 


# 在 Vector2d 类 中 定义 











def __repr__ (self): 
class_name = type(self).__name__ 
return '{}({!r}, {!r})'.format(class_name, *self) 
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如 果 硬 编码 class_name 的 值 ， 那 么 Vector2d 的 子 类 (如 ShortVector2d) 要 覆盖 _ repr 
方法 ， 只 是 为 了 修改 class_name 的 值 。 从 实例 的 类 型 中 读 取 类 名 ，__repr__ 方法 就 可 以 放 
心 继承 。 
至 此 ， 我 们 通过 一 个 简单 的 类 说 明了 如 何 利 用 数据 模型 处 理 Python 的 其 他 功能 : 提供 不 同 
的 对 象 表示 形式 、 实 现 自 定义 的 格式 代码 、 公 开 只 读 属 性 ， 以 及 通过 hash() 函数 支持 集合 
和 映射 。 


910 ”本章 小 结 


本 章 的 目的 是 说 明 ， 如 何 使 用 特殊 方法 和 约定 的 结构 ， 定 义 行 为 良好 且 符 合 Python 风格 
的 类 。 

vector2d_v3.py (示例 9-9) FE vector2d_v0.py (示例 9-2) 更 符合 Python 风格 吗 ? vector2d_ 
v3.py 中 的 vector2d 类 用 到 的 Python 功能 肯定 要 多 ， 但 是 vector2d 类 的 第 一 版 和 最 后 一 
版 相 比 哪 个 更 符合 风格 ， 要 看 使 用 的 上 下 文 。Tim Peter 写 的 “Python 之 禅 ”说道 


简洁 胜 于 复杂 。 
符合 Python 风格 的 对 象 应 该 正好 符合 所 需 ， 而 不 是 堆砌 语言 特性 。 


我 不 断 改写 Vector2d 类 是 为 了 提供 上 下 文 ， 以 便 讨 论 Python 的 特殊 方法 和 编程 约定 。 回 

ER 1-1， 你 会 发 现 本 章 的 几 个 代码 清单 说 明了 下 述 特殊 方法 。 

。 所 有 用 于 获取 字符 串 和 字 节 序列 表示 形式 的 方法 : __repr__. str. __format__ 和 
__bytes__, 

。 把 对 象 转换 成 数字 的 几 个 方法 : __abs__, __bool__ #f1__hash__, 

。 用 于 测试 字 节 序列 转换 和 支持 散 列 (连同 __hash__ 方法 ) Weg 运算 符 。 


为 了 转换 成 字 节 序列 ， 我 们 还 实现 了 一 个 备 选 构造 方法 ， 即 vector2d.frombytes()， 顺 便 
又 讨论 了 @classmethod (十 分 有 用 ) 和 @staticmethod (不 太 有 用 ， 使 用 模块 层 函 数 更 简 
单 ) 两 个 装饰 器 。frombytes 方法 的 实现 方式 借鉴 了 array.array 类 中 的 同名 方法 。 


我 们 了 解 到 ， 格 式 规 范 微 语言 (https://docs.python.org/3/library/string.html#formatspec) 是 
可 扩展 的 ， 方 法 是 实现 _format “方法 ， 对 提供 给 内 置 国 数 format(obj, format_spec) 
的 format_spec， 或 者 提供 给 str.format 方 法 的 '{:«format_spec»}' 位 于 代 换 字段 中 的 
«format_spec» 做 简单 的 解析 。 

为 了 把 Vector2d 实例 变 成 可 散 列 的 ， 我 们 先 让 它们 不 可 变 ， 至 少 要 把 x y 设 为 私有 属 
性 ， 再 以 只 读 特 性 公开 ， 以 防 意外 修改 它们 。 随 后 ， 我 们 实现 了 hash 方法， 使 用 推荐 
的 异 或 运算 符 计算 实例 属性 的 散 列 值 。 
接着 ， 我 们 讨论 了 如 何 使 用 _stots_ 属性 节省 内 存 ， 以 及 这 么 做 要 注意 的 问题 。 
_slots_ 属性 有 点 棘手 ， 因 此 仅 当 处 理 特别 多 的 实例 〈 数 百 万 个 ， 而 不 是 几 千 个 ) 时 才 
建议 使 用 。 
最 后 ， 我 们 说 明了 如 何 通过 访问 实例 属性 〈 如 self.typecode) 覆盖 类 属性 。 我 们 先 创建 
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一 个 实例 属性 ， 然 后 创建 子 类 ， 在 类 中 覆盖 类 属性 。 


本 章 多 次 提 到 ， 我 编写 代码 的 方式 是 为 了 举例 说 明 如 何 编写 标准 Python 对 象 的 API。 如 果 
用 一 句 话 总 结 本 章 的 内 容 ， 那 就 是 : 


要 构建 符合 Python 风格 的 对 象 ， 就 要 观察 真正 的 Python 对 象 的 行为 。 
一 一 古老 的 中 国 谚语 





9.11 延伸 阅读 


本 章 介绍 了 数据 模型 的 几 个 特殊 方法 ， 因 此 主要 参考 资料 与 第 1 章 一 样 ， 阅 读 那 些 资料 能 
对 这 个 话题 有 个 整体 了 解 。 方 便 起 见 ， 我 再 次 给 出 之 前 推荐 的 四 个 资料 ， 同 时 再 多 加 几 个 。 
Python 语言 参考 手册 中 的 “Data Model” 一 章 (https://docs.python.org/3/reference/datamodel.html ) 











本 章 用 到 的 方法 大 部 分 见于 “3.3.1. Basic customization” (https://docs.python.org/3/reference/ 
datamodel.html#basic-customization ) 。 


《Python 技术 手册 (第 2 版 )》，Alex Martelli 著 
虽然 这 本 书 只 涵盖 Python 2.5 (第 2 版 )， 但 是 对 数据 模型 做 了 深入 说 明 。 基 本 的 概念 
都 是 一 样 的 ， 而 且 自 Python 2.2 起 (这 一 版 的 内 置 类 型 和 用 户 定义 的 类 兼容 性 变 得 更 
好 )， 数 据 模型 的 大 多 数 API 完全 没 变 。 

«Python Cookbook (第 3 版 ) 中 文 版 》，David Beazley 和 Brian K. Jones # 


通过 诀窍 来 演示 现代 化 的 编程 实践 。 尤 其 是 第 8 章 “ 类 与 对 象 "， 其 中 有 好 几 个 方案 与 
本 章 讨论 的 话题 有 关 。 


《Python 参考 手册 (第 4 版 )》，David Beazley # 
详细 说 明了 Python 2.6 和 Python 3 的 数据 模型 。 


本 章 涵 盖 了 与 对 象 表示 形式 有 关 的 全 部 特殊 方法 ， 唯 有 __index__ 除外 。 这 个 方法 的 作 
用 是 强制 把 对 象 转换 成 整数 索引 ， 在 特定 的 序列 切片 场景 中 使 用 ， 以 及 满足 NumPy 的 一 
个 需求 。 在 实际 编程 中 ， 你 我 都 不 用 实现 _index__ 方 法， 除非 决定 新 建 一 种 数值 类 型 ， 
并 想 把 它 作 为 参数 传 给 _getitem_ 方 法。 如 果 好 奇 的 话 ， 可 以 阅读 A.M.Kuchling 写 的 
“What’s New in Python 2.5” (https://docs.python.org/2.5/whatsnew/pep-357.html) ， 这 篇 文章 
做 了 简要 说 明 ;， 此外， 还 可 以 阅读 “PEP 357 一 Allowing Any Object to be Used for Slicing” 
(https://www.python.org/dev/peps/pep-0357/)， 这 份 PEP MC 语言 扩展 的 实现 者 和 NumPy 
的 作者 Travis Oliphant 的 角度 详 述 了 对 __index__ 方 法 的 需求 。 

意识 到 应 该 区 分 字符 串 表 示 形 式 的 早期 语言 是 Smalltalk。1996 £, Bobby Woolf 写 了 一 
篇 题 为 “How to Display an Object as a String: printString and displayString” 的 文章 (http:// 
esug.org/data/HistoricalDocuments/TheSmalltalkReport/ST07/04wo.pdf), ， 他 在 这 篇 文章 中 讨 
论 了 Smalltalk 对 printString 和 displayString 方法 的 实现 。 在 9.1 节 说 明 repr() 和 str() 
的 作用 时 ， 我 从 这 篇 文章 中 借用 了 言 简 意 凡 的 表述 ， 即 “便于 开发 者 理解 的 方式 ”和 “ 便 
于 用 户 理解 的 方式 "。 
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特性 有 助 于 减少 前 期 投入 


在 Vector2d 类 的 第 一 版 中 ，x 和 y 属性 是 公开 的 ; 默认 情况 下 ，Python 的 所 有 实例 属 
性 和 类 属性 都 是 公开 的 。 这 对 向 量 来 说 是 合理 的 ， 因 为 我 们 要 能 访问 分 量 。 虽 然 这 些 
向 量 是 可 和 迭代 的 对 象 ， 而 且 可 以 拆 包 成 一 对 变量 ， 但 是 还 要 能 够 通过 my_vector.x 和 
my_vector.y 获取 各 个 分 量 。 

如 果 觉 得 应 该 避免 意外 更 新 Xx 和 yy 属性， 可 以 实现 特性 ， 但 是 代码 的 其 他 部 分 没有 变 
化 ，Vector2d 的 公开 接口 也 不 受 影响 ， 这 一 点 从 doctest 中 可 以 得 知 。 我 们 依然 能 够 访 
问 my_vector.x fe my_vector.y, 

这 表明 我 们 可 以 先 以 最 简单 的 方式 定义 类 ， 也 就 是 使 用 公开 属性 ， 因 为 如 果 以 后 需要 
对 读 值 方法 和 设 值 方法 增加 控制 ， 那 就 可 以 实现 特性 ， 这 样 做 对 一 开始 通过 公开 属性 
的 名 称 (如 x 和 y) 与 对 象 交 互 的 代码 没有 影响 。 

Java 语言 采用 的 方式 则 截然 相反 : Java 程序 员 不 能 先 定 义 简 单 的 公开 属性 ， 然 后 在 需 
要 时 再 实现 特性 ， 因 为 Java 语言 没有 特性 。 因 此 ， 在 Java 中 编写 读 值 方法 和 设 值 方法 
是 常态 ， 就 算 这 些 方法 没 做 什么 有 用 的 事情 也 得 这 么 做 ， 因 为 API 不 能 从 简单 的 公开 
属性 变 成 读 值 方法 和 设 值 方法 ， 同 时 又 不 影响 使 用 那些 属性 的 代码 。 

此 外 ， 本 书 的 技术 审 校 Alex Martelli 指出 ， 到 处 都 使 用 读 值 方法 和 设 值 方法 是 愚蠢 的 
行为 。 如 果 想 编写 下 面 的 代码 : 


we my_object.set_foo(my_object.get_foo() + 1) 
这 样 做 就 行 了 : 
ne my_object.foo += 1 
维基 的 发 明 人 和 极限 编程 先驱 Ward Cunningham 建议 问 这 个 问题 :“ 做 这 件 事 最 简单 


的 方法 是 什么 ? ”总 即 ， 我 们 应 该 把 焦点 放 在 目标 上 。 | 提前 实现 设 值 方 法 和 读 值 方法 
偏离 了 目标 。 在 Python 中 ， 我 们 可 以 先 使 用 公开 属性 ， 然 后 等 需要 时 再 变 成 特性 。 


私有 属性 的 安全 性 和 保障 性 


Perl 不 会 强制 你 保护 隐私 。 你 应 该 待 在 客厅 外 ， 因 为 你 没收 到 邀请 ， 而 不 是 因为 
里 面 有 把 枪 。 











注 11: 参见 “Simplest Thing that Could Possibly Work: A Conversation with Ward Cunningham, Part V” (http://www. 
artima.com/intv/simplest3.html ) 7 
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Python 和 Perl 在 很 多 方面 的 做 法 是 截然 相反 的 ， 但 是 Larry 和 Guido 似乎 都 同意 要 保 
护 对 象 的 隐私 。 


这 些 年 我 教 过 许多 Java 程序 员 学 习 了 Python， 我 发 现 很 多 人 都 对 Java 提供 的 隐私 保 
障 推 党 备至 。 可 事实 是 ，Java 的 private 和 protected 修饰 符 往往 只 是 为 了 防止 意外 
( 即 一 种 安全 措施 ) 。 只 有 使 用 安全 管理 器 部 署 应 用 时 才能 保障 绝对 安全 ， 防 止 恶意 访 
问 ; 但 是 ， 实 际 上 很 少 有 人 这 么 做 ， 即 便 在 企业 中 也 少见 。 


下 面 通过 一 个 Java 类 证 明 这 一 点 ( 见 示例 9-15) 。 


示例 9-15 ”Confidential.java: 一 个 Java 类 ， 定 义 了 一 个 私有 字段 ， 名 为 secret 
public class Confidential { 


private String secret = 


win, 
2 


public Confidential(String text) { 
secret = text.toUpperCase(); 
} 
} 


在 示例 9-15 F, RI text 转换 成 大 写 后 存 入 secret 字段 。 转 换 成 大 写 是 为 了 表明 
secret 字段 中 的 值 全 部 是 大 写 的 。 


我 们 要 使 用 Jython 运行 expose.py 脚本 才能 真正 说 明 问 题 。 那 个 脚本 使 用 内 省 (Java 
称 之 为 “反射 ") 获取 私有 字段 的 值 。expose.py 脚本 的 代码 在 示例 9-16 中 。 


示例 9-16 expose.py: 一 段 Jython 代码 ， 从 另 一 个 类 中 读 取 一 个 私有 字段 


import Confidential 


message = Confidential('top secret text') 
secret_field = Confidential.getDeclaredField('secret') 
secret_field.setAccessible(True) # 攻破 防线 

print 'message.secret =', secret_field.get(message) 


运行 示例 9-16 得 到 的 结果 如 下 : 


$ jython expose.py 
message.secret = TOP SECRET TEXT 


字符 串 'TOP SECRET TEXT' 从 Confidential 类 的 私有 字段 secret PER, 


这 里 没有 什么 黑 魔 法 : expose.py 脚本 使 用 Java 反射 API 获 取 私 有 字段 'secret' 的 
引用 ， 然 后 调用 'secret_field.setAccessible(True)' 把 它 设 为 可 读 的 。 显 然 ， 使 用 
Java 代码 也 能 做 到 这 一 点 〈 不 过 所 需 的 代码 行 数 是 这 里 的 三 倍 多 ， 参 见 本 书 代码 仓库 
里 的 Expose.java 文件 ，https://github.com/fluentpython/example-code)。 
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如 果 这 个 Jython 脚本 或 Java 主 程序 (如 Expose.class) 在 SecurityManager (http:// 
docs.oracle.com/javase/tutorial/essential/environment/security.html) 的 监管 下 运行 ，.set- 
Accessible(True) 这 个 关键 的 调用 就 会 失败 。 但 是 现实 中 ， 很 少 有 人 部 署 Java 应 用 时 
会 使 用 SecurityManager, Java applet 除外 (还 记得 这 个 吗 ? ) 。 


我 的 观点 是 ，Java 中 的 访问 控制 修饰 符 基 本 上 也 是 安全 措施 ， 不 能 保证 万 无 一 失 一 一 
至 少 实践 中 是 如 此 。 因 此 ， 安 心 享用 Python 提供 的 强大 功能 吧 ， 放 心 去 用 吧 ! 
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不 要 检查 它 是 不 是 鸭子 : 检查 它 的 叫 声 像 不 像 欧 子 、 它 的 走路 姿势 像 不 像 殉 子 ， 等 
等 。 具 体检 查 什 么 取决 于 你 想 使 用 语言 的 哪些 行为 。(comp.Lang.python，2000 年 
7 月 26 日 ) 





Alex Martelli 


本 章 将 以 第 9 章 定 义 的 二 维 向 量 Vector 2d 类 为 基础 ， 向 前 迈 出 一 大 步 ， 定 义 表 示 多 维 向 量 
的 Vector 类 。 这 个 类 的 行为 与 Python 中 标准 的 不 可 变 扁平 序列 一 样 。Vector 实例 中 的 元 
素 是 浮 点 数 ， 本 章 结 束 后 Vector 类 将 支持 下 述 功能 : 


。 基本 的 序列 协议 一 一 len__ 和 __getitem 

。 正确 表述 拥有 很 多 元 素 的 实例 

。 适当 的 切片 支持 ， 用 于 生成 新 的 Vector 实例 

。 综合 各 个 元 素 的 值 计 算 散 列 值 

。 自 定义 的 格式 语言 扩展 

此 外 ， 我 们 还 将 通过 _getattr_ “方法 实现 属性 的 动态 存 取 ， 以 此 取代 Vector2d 使 用 的 只 
读 特 性 一 一 不 过 ， 序 列 类 型 通常 不 会 这 么 做 。 

在 大 量 代 码 之 间 ， 我 们 将 穿插 讨论 一 个 概念 ， 把 协议 当 作 正式 接口 。 我 们 将 说 明 协 议和 哆 
子 类 型 之 间 的 关系 ， 以 及 对 自 定义 类 型 的 实际 影响 。 


我 们 开始 吧 ! 
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三 维 以 上 向 量 的 应 用 
谁 需 要 1000 维 向 量 呢 ?提示 : 不 是 三 维 艺术 家 | 不 过 ,信息 检索 领域 经 常 使 用 nn 维 向 
È (是 很 大 的 数 ) ， 查 询 的 文档 和 文本 使 用 向 量 表示 ， 一 个 单词 一 个 维度 。 这 叫 向 量 
空间 模型 (https:/en.wikipedia.org/wiki/Vector_space_model) 。 在 这 个 模型 中 ， 一 个 关 
键 的 相关 指标 是 余弦 相关 性 ( 即 查 询 向 量 与 文档 向 量 夹 角 的 余弦 )。 夹 角 越 小 ， 余 弦 值 
越 趋 近 于 1， 文 档 与 查询 的 相关 性 就 越 大 。 


不 过 ， 本 章 定 义 的 Vector 类 是 为 了 教学 而 举 的 例子 ， 不 会 涉及 很 多 数学 原理 。 我 们 的 
目的 是 以 序列 类 型 为 背景 说 明 Python 的 几 个 特殊 方法 。 


如 果 在 实际 使 用 中 需要 做 向 量 运 算 ， 应 该 使 用 NumPy 和 SciPy。Radim Rehurek 开发 
的 PyPI & gensim (https://pypi. python. org/pypi/gensim) 使 用 NumPy 和 SciPy 实现 了 用 
于 处 理 自然 语言 和 检索 信息 的 向 量 空间 模型 。 








10.1 Vector: 用 户 定 义 的 序列 类 型 


我 们 将 使 用 组 合 模式 实现 Vector 类 ， 而 不 使 用 继承 。 向 量 的 分 量 存 储 在 浮 点 数 数组 中 ， 而 
且 还 将 实现 不 可 变 扁平 序列 所 需 的 方法 。 


不 过 ， 在 实现 序列 方法 之 前 ， 我 们 要 确保 Vector 类 与 前 一 章 定义 的 Vector2d 类 兼容 ， 除 
非 有 些 地 方 让 二 者 兼容 没有 什么 总 


10.2 Vector 类 第 1 版 : 与 Vector2d 类 兼容 
Vector 类 的 第 1 版 要 尽量 与 前 一 章 定 义 的 vector2d 类 兼容 。 


然而 我 们 会 故意 不 让 Vector 的 构造 方法 与 Vector2d 的 构造 方法 兼容 。 为 了 编写 Vector(3，4) 
和 Vector(3, 4, 5) 这 样 的 代码 ， 我 们 可 以 让 init “方法 接受 任意 个 参数 (通过 *args) ; 
但 是 ， 序 列 类 型 的 构造 方法 最 好 接受 可 迭代 的 对 象 为 参数 ， 因 为 所 有 内 置 的 序列 类 型 都 是 这 
样 做 的 。 示 例 10-1 展示 了 Vector 类 的 几 种 实例 化 方式 。 


示例 10-1 测试 Vector.__init__ 和 Vector. repr ”方法 
>>> Vector([3.1，4.2]) 
Vector([3.1, 4.2]) 
>>> Vector((3, 4, 5)) 
Vector([3.0, 4.0, 5.0]) 
>>> Vector (range(10) ) 
Vector([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 


除了 新 构造 方法 的 签名 外 ， 我 还 确保 了 传人 两 个 分 量 (如 Vector([3, 4])) FF, Vector2d 
类 (an Vector2d(3, 4)) 的 每 个 测试 都 能 通过 ， 而 且 得 到 相同 的 结果 。 
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示例 10-2 是 第 1 版 Vector 类 的 实现 代码 (以 示例 9-2 和 示例 9-3 中 的 代码 为 基础 )。 


如 果 


部 分 ， 


做 ， 


= 
P 


Vector 实例 的 分 量 超过 6 个 ，repr() 生成 的 字符 串 就 会 使 用 .… 省 略 一 
如 示例 10-1 中 的 最 后 一 行 所 示 。 包 含 大 量 元 素 的 集合 类 型 一 定 要 这 人 么 
为 为 字符 串 表示 形式 是 用 于 调试 的 〈 因 此 不 想 让 大 型 对 象 在 控制 台 或 日 


























输出 儿 千 行内 容 )。 使 用 reprlib 模块 可 以 生成 长 度 有 限 的 表示 形式 ， 如 





示例 10-2 所 示 。 





的 内 容 。 


示例 10-2 vector_vl.py: 从 vector2d_vl.py 衍生 而 来 
from array import array 
import reprlib 
import math 


class Vector: 
typecode = 'd' 


def 


def 


def 


def 


def 


def 


def 


def 


__init__(self, components): 
self._components = array(self.typecode, components) @ 


__iter__(self): 
return iter(self._components) @ 


__repr__(self): 

components = reprlib.repr(self._components) © 
components = components[components.find('['):-1] @ 
return 'Vector({})'.format(components ) 


__str__(self): 
return str(tuple(self)) 


__bytes__(self): 
return (bytes([ord(self.typecode)]) + 
bytes(self._components)) © 


__eq__(self, other): 
return tuple(self) == tuple(other) 


__abs__(self): 
return math.sqrt(sum(x * x for x in self)) O 


__bool__(self): 
return bool(abs(self)) 


@classmethod 


def 


frombytes(cls, octets): 

typecode = chr(octets[0]) 

memv = memoryview(octets[1:]).cast(typecode) 
return cls(memnv) @ 


在 Python 2H, reprlib 模块 的 名 字 是 repr, 2to3 工具 能 自动 重 写 repr 导入 
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@ self._components 是 “ 受 保护 的 ”实例 属性 ， 把 Vector 的 分 量 保存 在 一 个 数组 中 。 

O 为 了 迭代 ， 我 们 使 用 self._components 构建 一 个 迭代 器 。' 

© 使 用 reprlib.repr() 函数 获取 self._components 的 有 限 长 度 表 示 形 式 (如 array('d'， 
[0.0, 1.0, 2.0, 3.0, 4.0, ...])), 

O 把 字符 串 插入 Vector 的 构造 方法 调用 之 前 ， 去 掉 前 面 的 array('d' 和 后 面 的 )。 

© 直接 使 用 self._components 构建 bytes 对 象 。 

O 不 能 使 用 hypot 方法 了 ， 因 此 我 们 先 计算 各 分 量 的 平方 之 和 ， 然 后 再 使 用 sart 方法 开 
平方 。 

O 我 们 只 需 在 Vector2d.frombytes 方法 的 基础 上 改动 最 后 一 行 : 直接 把 memoryview 传 给 
构造 方法 ， 不 用 像 前 面 那样 使 用 * 拆 包 。 


我 使 用 reprlib.repr 的 方式 需要 做 些 说 明 。 这 个 函数 用 于 生成 大 型 结构 或 递归 结构 的 安 
全 表示 形式 ， 它 会 限制 输出 字符 捉 的 长 度 ， 用 '...' 表示 截断 的 部 分 。 我 希望 Vector 实 
例 的 表示 形式 是 vector([3.0，4.0，5.0]) 这 样 ， 而 不 是 Vector(array('d'，[3.0，4.0， 
5.0]))， 因 为 Vector 实例 中 的 数组 是 实现 细节 。 因 为 这 两 种 构造 方法 的 调用 方式 所 构建 的 
Vector 对 象 是 一 样 的 ， 所 以 我 选择 使 用 更 简单 的 句法 ， 即 传 入 列表 参数 。 
编写 _repr_ “方法 时 ， 本 可 以 使 用 这 个 表达 式 生成 简化 的 components 显示 形式 : reprlib. 
repr(List(seLf._components))。 然 而 ， 这 么 做 有 点 浪费 ， 因 为 要 把 self._components 中 
的 每 个 元 素 复制 到 一 个 列表 中 ， 然 后 使 用 列表 的 表示 形式 。 我 没有 这 么 做 ， 而 是 直接 
把 self._components 传 给 reprlib.repr 函数 ， 然 后 去 掉 [] 外 面 的 字符 ， 如 示例 10-2 中 
repr 方法 的 第 二 行 所 示 。 

调用 repr() 函数 的 目的 是 调试 ， 因 此 绝对 不 能 抛 出 异常 。 如 果 __repr_ 方 

法 的 实现 有 问题 ， 那 么 必须 处 理 ， 尽 量 输出 有 用 的 内 容 ， 让 用 户 能 够 识别 目 

标 对 象 。 





















































注意 ，_str_、_eq_ 和 _ boolL 方法 与 Vector2d 类 中 的 一 样 ， 而 frombytes 方法 也 只 变 
了 一 个 字符 (最 后 一 行 把 * 去 掉 了 )。 这 是 Vector2d 可 氨 代 的 好 处 之 一 。 

顺便 说 一 下 ， 我 们 本 可 以 让 Vector 继承 Vector2d， 但 是 我 没 这 么 做 ， 原 因 有 二 。 其 一 ， 两 
个 构造 方法 不 兼容 ， 因 此 不 建议 继承 。 这 一 点 可 以 通过 适当 处 理 _init “方法 的 参数 解 
决 ， 不 过 第 二 个 原因 更 重要 : REJE Vector 类 当 作 单 独 的 示例 ， 以 此 实现 序列 协议 。 接 下 
来 ， 我 们 先 讨 论 协议 这 个 术语 ， 然 后 实现 序列 协议 。 


10.3 Pe AAR FA 


在 第 1 章 我 们 就 说 过 ， 在 Python 中 创建 功能 完善 的 序列 类 型 无 需 使 用 继承 ， 只 需 实现 符合 
序列 协议 的 方法 。 不 过 ， 这 里 说 的 协议 是 什么 呢 ? 











注 1: iter() 函数 和 _ iter “方法 在 第 14 章 讨论 。 
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在 面向 对 象 编程 中 ， 协 议 是 非 正式 的 接口 ， 只 在 文档 中 定义 ， 在 代码 中 不 定义 。 例 如 ， 
Python 的 序列 协议 只 需要 len Fl _getitem_ 两 个 方法 。 任 何 类 (如 Spam)， 只 要 使 用 
标准 的 签名 和 语义 实现 了 这 两 个 方法 ， 就 能 用 在 任何 期 待 序列 的 地 方 。Spanm 是 不 是 哪个 类 
的 子 类 无 关 紧 要 ， 只 要 提供 了 所 需 的 方法 即 可 。 示 例 1-1 中 见 过 一 例 ， 这 里 再 次 给 出 代码 ， 
如 示例 10-3 所 示 。 


示例 10-3 示例 1-1 的 代码 ， 为 了 方便 ， 再 次 给 


import collections 






































Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def __len__(self): 
return Len(self._cards) 


def _ getitem (self, position): 
return self._cards[position] 


示例 10-3 中 的 FrenchDeck 类 能 充分 利用 Python 的 很 多 功能 ， 因 为 它 实 现 了 序列 协议 ， 不 
过 代码 中 并 没有 声明 这 一 点 。 任 何 有 经 验 的 Python 程序 员 只 要 看 一 眼 就 知道 它 是 序列 ， 即 
便 它 是 object 的 子 类 也 无 妨 。 我 们 说 它 是 序列 ， 因 为 它 的 行为 像 序列 ， 这 才 是 重点 。 


根据 本 章 开头 引用 的 Alex Martelli 的 帖子 ， 人 们 称 其 为 鸭子 类 型 (duck typing). 


协议 是 非 正 式 的 ， 没 有 强制 力 ， 因 此 如 果 你 知道 类 的 具体 使 用 场景 ， 通 常 只 需要 实现 一 个 协 
议 的 部 分 。 例 如 ， 为 了 支持 迭代 ， 只 需 实现 _getitem “方法 ， 没 必要 提供 _ten “方法 。 


下 面 ， 我 们 将 在 Vector 类 中 实现 序列 协议 。 我 们 先 不 支持 完美 的 切片 ， 稍 后 再 完善 。 


10.4 ”Vector 类 第 2 版 : 可 切片 的 序列 
如 FrenchDeck 类 所 示 ， 如 果 能 委托 给 对 象 中 的 序列 属性 (如 self._components 数组 )， 支 
持 序列 协议 特别 简单 。 下 述 只 有 一 行 代码 的 _Len “和 _ getitem “方法 是 个 好 的 开始 ; 


CLass Vector : 


# 省 略 了 很 多 行 
# ses 





























def __len__ (self): 
return len(self._components) 


def _ getitem (self, index): 
return self._components[index] 
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添加 这 两 个 方法 之 后 ， 就 能 执行 下 述 操作 了 : 


>>> v1 = Vector([3, 4, 5]) 
>>> len(v1) 

3 

>>> v1[0], vi[-1] 

(3.0, 5.0) 

>>> v7 = Vector(range(7)) 
>>> v7[1:4] 

array('d', [1.0, 2.0, 3.0]) 


可 以 看 到 ， 现 在 连 切 片 都 支持 了 ， 不 过 尚 不 完美 。 如 果 Vector 实例 的 切片 也 是 Vector 实 
例 ， 而 不 是 数组 ， 那 就 更 好 了 。 前 面 那 个 FrenchDeck 类 也 有 类 似 的 问题 : 切片 得 到 的 是 列 
表 。 对 Vector 来 说， 如 果 切 片 生成 普通 的 数组 ， 将 会 缺失 大 量 功能 。 


想 想 内 置 的 序列 类 型 ， 切 片 得 到 的 都 是 各 自 类 型 的 新 实例 ， 而 不 是 其 他 类 型 。 


为 了 把 Vector 实例 的 切片 也 变 成 Vector 实例 ， 我 们 不 能 简单 地 委托 给 数组 切片 。 我 们 要 
分 析 传 给 _getitem_ 方法 的 参数 ， 做 适当 的 处 理 。 


下 面 来 看 Python 如 何 把 my_seq[1:3] 句法 变 成 传 给 my_seq.__getitem_(...) 的 参数 。 


10.4.1 切片 原理 

一 例 胜 千言 ， 我 们 来 看 看 示例 10-4。 

示例 10-4 了 解 _getitem _ 和 切片 的 行为 
>>> Class MySeq: 


def _ getitem (self, index): 
return index # © 










































































>>> s = MySeq() 

>>> s[1] #@ 

1 

>>> s[1:4] # © 
slice(1, 4, None) 

>>> s[1:4:2] #@ 
slice(1, 4, 2) 

>>> s[1:4:2, 9] #6 
(slice(1, 4, 2), 9) 
>>> s[1:4:2, 7:9] # O 
(slice(1, 4, 2), slice(7, 9, None)) 


O 在 这 个 示例 中 ，_getitem__“ 直接 返回 传 给 它 的 值 。 

O 单个 索引 ， 没 什么 新 奇 的 。 

© 1:4 表示 法 变 成 了 slice(1, 4, None), 

© slice(1, 4, 2) 的 意思 是 从 1 开始， 到 4 结束 ， 步 幅 为 2。 

O 神奇 的 事 发 生 了 : 如 果 [] 中 有 逗号 ， MBA _getitem_ 收 到 的 是 元 组 。 
@ 元 组 中 甚至 可 以 有 多 个 切片 对 象 。 


现在 ,我们 来 仔细 看 看 slice 本 身 ， 如 示例 10-5 所 示 。 
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示例 10-5 查看 slice 类 的 属性 
>>> slice #@ 
<class 'slice'> 
>>> dir(slice) #@ 
['__class__', '_delattr__', 


"dif"; '_doc__', '_eq_', 


'_ format ', '_ge__', ' getattribute ', '_gt_', 
ha 

'_ New ', '_reduce ', '_ reduce ex ', '_repr_', 
__setattr__', '_ sizeof ', '__str__', '__subclasshook__', 
'indices', 'start', 'step', 'stop'] 


O slice 是 内 置 的 类 型 (2.4.2 节 首次 出 现 )。 
O 通过 审查 stice， 发 现 它 有 start, stop 和 step 数据 属性 ， 以 及 indices 方法 。 





在 示例 10-5 中 ， 调 用 dir(stice) 得 到 的 结果 中 有 个 indices 属性 ， 这 个 方法 有 很 大 的 作 


用 ,但 是 鲜 为 人 知 。help(slice.indices) 给 出 的 信息 如 下 。 


S.indices(len) -> (start, stop, 


stride) 


给 定 长 度 为 len 的 序列 ,计算 s 表示 的 扩展 切片 的 起 始 (start) 和 结尾 (stop) R 





引 ， 以 及 步 幅 (stride)。 超 H 


上 边界 的 索引 会 被 截 掉 ， 这 与 常规 切片 的 处 理 方式 一 样 。 





ATUL, indices 方法 开放 了 内 置 序列 实现 的 环 手 逻辑 ， 用 于 优雅 地 处 理 缺 失 索 引 和 人 负 
数 索引 ， 以 及 长 度 超过 目标 序列 的 切片 。 这 个 方法 会 “整顿 ”元 组 ， 把 start, stop 和 
stride 都 变 成 非 负 数 ， 而 且 都 落 在 指定 长 度 序列 的 边界 内 。 





下 面 举 几 个 例子 。 假 设 有 个 长 度 为 





5 的 序列 ， 例 如 'ABCDE' 


>>> slice(None, 10, 2).indices(5) #@ 


(0, 5; 2) 


>>> slice(-3, None, None).indices(5) # @ 


(2, 5, 1) 


@ 'ABCDE'[:10:2] 等 同 于 'ABCDE' [0:5:2] 


@ 'ABCDE'[-3:] 等 同 于 'ABCDE' [2 


写作 本 书 时 ， 在 线 








文档 。 Python Python/C API 参考 手册 中 有 类 似 的 C 语 言 函 数 的 文档 ， 





7531] 


版 Python JÆ B 7 4 (RAD HA slice.indices 方法 的 








PySlice_GetIndicesEx (https://docs.python.org/3/c-api/slice.html#c.PySlice_ 


GetIndicesEx), Wf 3% 





切片 对 象 时 ， 我 在 Python 控制 台中 执行 了 dir() 和 


hetp()， 这 才 发 现 slice.indices() 方法 。 这 也 表明 交互 式 控制 台 是 个 有 价 
值 的 工具 ， 能 发 现 新 事物 。 


在 Vector 类 中 无 需 使 用 slice.i 














ndices() 方 法 ， 因 为 收 到 切片 参数 时 ， 我 们 会 委托 








_components 数组 处 理 。 但 是 ， 如 果 你 没有 底层 序列 类 型 作为 依靠 ， 那 么 使 用 这 个 方法 能 


市 省 大 量 时 间 。 














注 2: 现在 已 经 有 了 ， 参 见 : https://docs.python.org/3/reference/datamodel.html?highlight=indices#slice.indices。 





编者 注 
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现在 我 们 知道 如 何 处 理 切 片 了 ， 下 面 来 看 vector .__getitem__ 方 法 改进 后 的 实现 。 


10.4.2 ”能 处 理 切 片 的 _getitem 方法 


示例 10-6 列 出 了 让 Vector 表现 为 序列 所 需 的 两 个 方法 : _Len 和 __getitem _ (后 者 现 
在 能 正确 地 处 理 切 片 了 )。 











示例 10-6 ”vector_v2.py 的 部 分 代码 : 为 vector_vl.py 中 的 Vector 类 ( 见 示例 10-2) 添加 
__len__ 和、 getitem ”方法 


def __len__(self): 
return Len(self._components) 


def _ getitem (self, index): 
cls = type(self) @ 
if isinstance(index, slice): @ 
return cls(self._components[index]) © 
elif isinstance(index, numbers.Integral): @ 
return self._components[index] © 
else: 


msg = '{cls.__name__} indices must be integers' 
raise TypeError(msg.format(cls=cls)) @ 


O 获取 实例 所 属 的 类 (Bll Vector)， 供 后 面 使 用 。 

O 如 果 index 参数 的 值 是 slice 对 象 …… 

O= 调用 类 的 构造 方法 ， 使 用 components 数组 的 切片 构建 一 个 新 Vector 实例 。 
O 如 果 index 是 int 或 其 他 整数 类 型 …… 

日 那 就 返回 components 中 相应 的 元 素 。 

O 否则 ， 抛 出 异常 。 

















大 量 使 用 isinstance 可 能 表明 面向 对 象 设计 得 不 好 ， 不 过 在 _getitem_ Y 
法 中 使 用 它 处 理 切片 是 合理 的 。 注 意 ， 示 例 10-6 中 测试 时 用 的 是 numbers. 
IntegraL， 这 是 一 个 抽象 基 类 (Abstract Base Class，ABC)。 在 isinstance 中 
使 用 抽象 基 类 做 测试 能 让 API 更 灵活 且 更 容易 更 新 ， 原 因 参 见 第 11 章 。 可 
TH, Python 3.4 的 标准 库 中 没有 slice 的 抽象 基 类 。 























为 了 确定 在 _getitem “的 else 子 句 中 会 抛 出 哪个 异常 ， 我 在 交互 式 控制 台中 查看 了 
'ABC' [1，2] 的 结果 。 我 发 现 ，Python 抛 出 的 是 TypeError; 我 还 从 错误 消息 中 复制 了 表述 
Fisk, “indices must be integers”。 为 了 创建 符合 Python 风格 的 对 象 ， 我 们 要 模仿 Python 内 
置 的 对 象 。 


把 示例 10-6 中 的 代码 添加 到 Vector 类 中 之 后 ， 切 片 行为 就 正确 了 ， 如 示例 10-7 所 示 。 


示例 10-7 ”测试 示例 10-6 中 改进 的 vector .getitem “方法 
>>> v7 = Vector(range(7)) 





TE 3: 必须 在 vector_v2.py 的 开头 加 上 import numbers, 一 一 编者 注 
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>>> v7[-1] © 

6.0 

>>> v7[1:4] @ 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] © 

Vector([6.0]) 

>>> v7[1,2] @ 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 


O 单个 整数 索引 只 获取 一 个 分 量 ， 值 为 浮 点 数 。 

O 切片 索引 创建 一 个 新 Vector 实例 。 

O 长 度 为 1 的 切片 也 创建 一 个 vector 实例 。 

Q vector 不 支持 多 维 索引 ， 因 此 索引 元 组 或 多 个 切片 会 抛 出 错误 。 


10.5 ” Vector 类 第 3 版 : 动态 存 取 属性 


Vector2d 变 成 Vector 之 后 ， 就 没 办 法 通过 名 称 访问 向 量 的 分 量 了 (如 v.x 和 v.y)。 现 在 
我 们 处 理 的 向 量 可 能 有 大 量 分 量 。 不 过 ， 若 能 通过 单个 字母 访问 前 几 个 分 量 的 话 会 比较 方 
便 。 比 如 ,， 用 x、y 和 zz 代替 v[9]、v[1] 和 v[2]。 

我 们 想 额 外 提供 下 述 名 法， 用 于 读 取向 量 的 前 四 个 分 量 : 


>>> v = Vector(range(10)) 
>>> V.X 

0.0 

>>> V.y, V.Z, v.t 

(1.0, 2.0, 3.0) 


在 Vector2d 中 ， 我 们 使 用 @property 装饰 器 把 x 和 y 标记 为 只 读 特 性 〈 见 示例 9-7). Fell] 
可 以 在 Vector 中 编写 四 个 特性 ， 但 这 样 太 麻烦 。 特 殊 方 法 _getattr_ 提供 了 更 好 的 方式 。 


属性 查找 失败 后 ， 解 释 器 会 调用 _getattr 方法 。 简 单 来 说 ， 对 my_obj.x 表 达 式 ，Python 
会 检查 my_obj 实例 有 没有 名 为 x 的 属性 ， 如 果 没 有 ， 到 类 (my_obj.__class_) 中 查找 ， 如 果 
还 没有 ， 顺 着 继承 树 继续 查找 。 ”如果 依 旧 找 不 到 ， 调 用 my_obj 所 属 类 中 定义 的 _getattr_ 
方法 ， 传 入 self 和 属性 名 称 的 字符 串 形 式 (如 'x')。 


示例 10-8 中 列 出 的 是 我 们 为 Vector 类 定义 的 _getattr_ 方法 。 这 个 方法 的 作用 很 简单 
它 检查 所 查找 的 属性 是 不 是 xyzt 中 的 某 个 字母 ， 如 果 是 ， 那 么 返回 对 应 的 分 量 。 
















































































示例 10-8 ”vector_v3.py 的 部 分 代码 : 在 vector_v2.py 中 定义 的 Vector 类 里 添加 _getattr_ 
方法 


shortcut_names = 'xyzt' 


def _ getattr__(self, name): 
cls = type(self) @ 














TE 4: 属性 查找 机 制 比 这 复杂 得 多 ， 复 杂 的 细节 在 第 六 部 分 讲解 。 目 前 知道 这 种 简单 的 说 明 即 可 。 





























序列 的 修改 、 散 列 和 切片 | 237 


if len(name) == 1: @ 
pos = cls.shortcut_names.find(name) © 
if 0 <= pos < len(self._components): @ 
return self._components[pos] 
msg = '{.__name__!r} object has no attribute {!r}' © 
raise AttributeError(msg.format(cls, name)) 


@ 获取 vector， 后 面 待 用 。 

O 如 果 属 性 名 只 有 一 个 字母 ， 可 能 是 shortcut_names 中 的 一 个 。 

© 查找 那个 字母 的 位 置 ，str.find 还 会 定位 'yz' ,但 是 我 们 不 需要 ， 因 此 在 前 一 行 做 了 
测试 。 

O 如 果 位 置 落 在 范围 内 ， 返 回 数组 中 对 应 的 元 素 。 

O 如 果 测 试 都 失败 了 ， 抛 出 AttributeError， 并 指明 标准 的 消息 文本 。 

_ getattr 方法 的 实现 不 难 ， 但 是 这 样 实现 还 不 够 。 看 看 示例 10-9 中 古怪 的 交互 行为 。 


示例 10-9 不 恰当 的 行为 : 为 v.x 赋值 没有 抛 出 错误 ,但 是 前 后 矛盾 


>>> v = Vector(range(5)) 


















































>>> V 

Vector([0.0, 1.0, 2.0, 3.0, 4.0]) 
>>> v.x #0 

0.0 

>>> v.x = 10 #0 

>>> v.x #0 

10 

>>> V 


Vector ([0.0, 1.0, 2.0, 3.0, 4.0]) #@ 


@ 使 用 v.x 获取 第 一 个 元 素 (VO). 

O 为 v.x 赋 新 值 。 这 个 操作 应 该 抛 出 异常 。 

© 读 取 v.x， 得 到 的 是 新 值 ，19。 

O 可 是 ， 向 量 的 分 量 没 变 。 

尔 能 解释 为 什么 会 这 样 吗 ” 具 体 而 言 ， 如 果 向 量 的 分 量 数组 中 没有 新 值 ， 为 什么 v.x 返回 
10? 如 果 你 不 能 立即 给 出 解释 ， 再 看 看 示例 10-8 前 面 对 _getattr_ 方法 的 说 明 。 原 因 不 
是 很 明显 ， 但 却 是 理解 本 书后 面 内 容 的 重要 基础 。 


示例 10-9 之 所 以 前 后 矛盾 ,是 __getattr_ “的 运作 方式 导致 的 : 仅 当 对 象 没有 指定 名 称 的 
属性 时 ，Python 才 会 调用 那个 方法 ， 这 是 一 种 后 备 机 制 。 可 是 ， 像 v.x = 10 这 样 赋值 之 
后 ，v 对 象 有 x 属性 了 ， 因 此 使 用 v.x 获取 x 属性 的 值 时 不 会 调用 _getattr “方法 了 ， 解 
释 器 直接 返回 绑 定 到 v.x 上 的 值 ， 即 10。 另 一 方面 ，__getattr_ 方法 的 实现 没有 考虑 到 
self._components 之 外 的 实例 属性 ， 而 是 从 这 个 属性 中 获取 shortcut_names 中 所 列 的 “ 虐 


为 了 避免 这 种 前 后 矛盾 的 现象 ， 我 们 要 改写 Vector 类 中 设置 属性 的 逻辑 。 


回想 第 9 章 的 最 后 一 个 vector2d 示例 中 ， 如 果 为 .x 或 .y 实 例 属 性 赋值 ， 会 抛 出 
AttributeError。 为 了 避免 歧义 ， 在 Vector 类 中 ， 如 果 为 名 称 是 单个 小 写字 母 的 属性 赋 
值 ， 我 们 也 想 抛 出 那个 异常 。 为 此 ， 我 们 要 实现 _setattr_ “方法 ， 如 示例 10-10 所 示 。 
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示例 10-10 vector_v3.py 的 部 分 代码 : 在 Vector 类 中 实现 _setattr_ 方法 
def _ setattr_ (self, name, value): 
cls = type(self) 
if len(name) = 1: @ 
if name in cls.shortcut_names: @ 
error = 'readonly attribute {attr_name!r}' 
elif name.islower(): © 
error = "can't set attributes 'a' to 'z' in {cls_name!r}" 
else: 
error ='' @ 
if error: 日 
msg = error.format(cls_name=cls.__name__, attr_name=name) 
raise AttributeError(msg) 
super().__setattr__(name, value) @ 


O 特别 处 理 名 称 是 单个 字符 的 属性 。 

@ 如 果 name 是 xyzt 中 的 一 个 ， 设 置 特殊 的 错误 消息 。 

© 如 果 name 是 小 写字 母 ， 为 所 有 小 写字 母 设置 一 个 错误 消息 。 
O 否则 ， 把 错误 消息 设 为 空 字符 串 。 

O 如 果 有 错误 消息 ， 抛 出 AttributeError。 

O 默认 情况 : 在 超 类 上 调用 __setattr_ 方 法， 提供 标准 行为 。 











super() 函数 用 于 动态 访问 超 类 的 方法 ， 对 Python 这 样 支持 多 重 继承 的 动 
态 语 言 来 说 ， 必 须 能 这 么 做 。 程 序 员 经 常 使 用 这 个 函数 把 子 类 方法 的 某 些 
任务 委托 给 超 类 中 适当 的 方法 ， 如 示例 10-10 所 示 。12.2 节 会 进一步 探讨 





super() 函数 。 


为 了 给 AttributeError 选择 错误 消息 ， 我 查看 了 内 置 的 complex 类 型 的 行为 ， 

















complex 对 象 是 不 可 变 的 ， 而 且 有 一 对 数据 属性 :real 和 inag。 如 果 试图 修改 任何 一 个 属 











因为 





性 ，complex 实例 会 抛 出 AttributeError， 而 且 把 错误 消息 设 为 "can't set attribute", 
而 如 果 尝 试 为 受 特性 保护 的 只 读 属 性 赋值 ( 像 9.6 节 那样 做 )， 得 到 的 错误 消息 是 
"readonly attribute"。 在 __setattr__ 方法 中 为 error 字符 串 选 词 时 ， 我 参考 了 这 两 个 错 








误 消 息 ， 而 且 更 为 明确 地 指出 了 禁止 赋值 的 属性 。 








注意 ， 我 们 没有 禁止 为 全 部 属性 赋值 ， 只 是 禁止 为 单个 小 写字 母 属 性 赋值 ， 以 防 与 只 读 属 


PEx, y, zF tH. 








正如 9.8.1 节 所 指出 的 ， 不 建议 只 为 了 避免 包 





























这 么 做 。 











我 们 知道 ， 在 类 中 声明 _stots_ 属性 可 以 防止 设置 新 实例 属性 ， 因 此 ， 你 
可 能 想 使 用 这 个 功能 ， 而 不 像 这 里 所 做 的 ， 实 现 _setattr_ 方 法。 可是， 
建 实 例 属 性 而 使 用 _stots_ 属 
PE. _slots_ 属性 只 应 该 用 于 节省 内 存 ， 而 且 仅 当 内 存 严 重 不 足 时 才 应 该 


虽然 这 个 示例 不 支持 为 Vector 分 量 赋值 ， 但 是 有 一 个 问题 要 特别 注意 : 多 数 时 候 ， 如 有 果实 


HLS _getattr__ 方法 ， 那 么 也 要 定义 _setattr_ 方法， 以 防 对 象 的 行为 不 一 致 。 
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如 果 想 允许 修改 分 量 ， 可 以 使 用 _setitem 方法， 支持 v[9] = 1.1 这 样 的 赋值 ， 以 及 
(或 者 ) 实现 _setattr 方法 ,支持 v.x = 1.1 这样 的 赋值 。 不 过 ， 我 们 要 保持 Vector 是 
不 可 变 的 ， 因 为 在 下 一 市 中 ， 我 们 将 把 它 变 成 可 散 列 的 。 


10.6 Vector 类 第 4 版 : 散 列 和 快速 等 值 测试 


我 们 要 再 次 实现 hash 方法。 加 上 现 有 的 -eq 方法， 这 会 把 Vector 实例 变 成 可 散 列 
的 对 象 。 


示例 9-8 中 的 _hash__ 方 法 简单 地 计算 hash(self.x) ^ hash(self.y)。 这 一 次 ， 我 们 要 使 
H^ R) 运算 符 依 次 计算 各 个 分 量 的 散 列 值 ， 像 这 样 : vio] ^ via] ^ v[2]...。 这 
是 functools.reduce 函数 的 作用 。 之 前 我 说 reduce 没有 以 往 那 么 常用 ,“ 但 是 计算 向 量 所 有 
分 量 的 散 列 值 非常 适合 使 用 这 个 国 数 。reduce 函数 的 整体 思路 如 图 10-1 所 示 。 


[全 全 全 全 全 全 | 


Se reduce 
@ 


图 10-1: 归 约 函数 (reduce, sum, any, all) 把 序列 或 有 限 的 可 迭代 对 象 变 成 一 个 聚合 结果 


我 们 已 经 知道 functools.reduce() 可 以 替换 成 sum()， 下 面 说 说 它 的 原理 。 它 的 关键 思想 
是 ， 把 一 系列 值 归 约 成 单个 值 。reduce() 函数 的 第 一 个 参数 是 接受 两 个 参数 的 函数 ， 第 
二 个 参数 是 一 个 可 迭代 的 对 象 。 假 如 有 个 接受 两 个 参数 的 fn 函数 和 一 个 lst 列表 。 调 用 
reduce(fn, lst) 时 ，fn 会 应 用 到 第 一 对 元 素 上 ， 即 fn(Lst[0]，Lst[1)， 生 成 第 一 个 结果 
r1。 然 后 ，fn 会 应 用 到 rl 和 下 一 个 元 素 上 ， 即 fn(r1，1Lst[2])， 生 成 第 二 个 结果 r2。 接 
着 ,调用 fn(r2，Lst[3])， 生 成 r3……' 直 到 最 后 一 个 元 素 ， 返 回 最 后 得 到 的 结果 rN, 


使 用 reduce 国 数 可 以 计算 5! (5 的 阶乘 ) : 


>>> 2*3* 4* 5 # 想 要 的 结果 是 :5! == 120 

120 

>>> import functools 

>>> functools.reduce(Lambda a,b: a*b, range(1, 6)) 
120 


回 到 散 列 问题 上 。 示 例 10-11 展示 了 计算 聚合 异 或 的 3 种 方式 : 一 种 使 用 for 循环 ， 两 种 
使 用 reduce 函数 。 


示例 10-11 计算 整数 0~5 的 累计 异 或 的 3 种 方式 
>>> =0 
>>> for i in range(1, 6): #@ 


























































































































注 5: sum, any 和 all 涵盖 了 reduce 的 大 部 分 用 途 。 参 见 5.2.1 市 的 讨论 。 
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>>> import functools 
>>> functools.reduce(lambda a, b: a^b, range(6)) #@ 


>>> import operator 
>>> functools.reduce(operator.xor, range(6)) # © 


O 使 用 for 循环 和 累加 器 变量 计算 聚合 异 或 。 
@ 使 用 functools.reduce 国 数 ， 传 入 匿名 国 数 。 
© 使 用 functools.reduce 函数 ， 把 lambda 表达 式 换 成 operator.xor, 


示例 10-11 中 的 3 种 方式 里 ， 我 最 喜欢 最 后 一 种 ， 其 次 是 for 循环 。 你 呢 ? 


5.10.1 节 讲 过 ，operator 模块 以 函数 的 形式 提供 了 Python 的 全 部 中 绥 运 算 符 ， 从 而 减少 使 
用 lambda 表达 式 。 


为 了 使 用 我 喜欢 的 方式 编写 Vector._hash__ 方 法， 我 们 要 导入 functools 和 operator 模 
He, Vector 类 的 相关 变化 如 示例 10-12 所 示 。 


示例 10-12 ”vector_v4.py 的 部 分 代码 : 在 vector_v3.py 中 Vector 类 的 基础 上 导入 两 个 模 
H, 添加 _hash_ 方法 


from array import array 
import reprlib 

import math 

import functools # @ 
import operator #@ 








class Vector: 
typecode = 'd' 


# 排版 需要 ,省略 了 很 多 行 …， 





def _eq_(self, other): # © 
return tuple(self) == tuple(other) 


def _ hash__(self): 
hashes = (hash(x) for x in self._components) # @ 
return functools.reduce(operator.xor, hashes, 0) #©@ 


# ATRL T... 
@ 为 了 使 用 reduce 国 数 ， 导 入 functools 模块 。 
@ 为 了 使 用 xor 函数 ， 导 入 operator 模块 。 
O __eq_ 方法 没 变 ， 我 把 它 列 出 来 是 为 了 把 它 和 __hash__ 方法 放 在 一 起 ， 因 为 它们 要 结 
合 在 一 起 使 用 。 
O 创建 一 个 生成 器 表达 式 ， 惰 性 计算 各 个 分 量 的 散 列 值 。 
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© 把 hashes 提供 给 reduce 函数 ， 使 用 xor 函数 计算 聚合 的 散 列 值 ， 第 三 个 参数 ，9 是 初 
始 值 〈 参 见 下 面 的 警告 框 ) 。 


使 用 reduce 函数 时 最 好 提供 第 三 个 参数 ，reduce(function，iterable， 
initializer)， 这 样 能 避免 这 个 异常 : TypeError: reduce() of empty sequence 
with no initial value (这 个 错误 消息 很 棒 ， 说 明了 问题 ， 还 提供 了 解决 
FFE). WAKA AZ, initializer 是 返回 的 结果 ， 否则 ， 在 归 约 中 使 
用 它 作 为 第 一 个 参数 ， 因 此 应 该 使 用 恒 等 值 。 比 如 ， 对 +、| 和 ^ 来 说 ， 
initializer 应 该 是 0; 而 对 * 和 & 来 说 ， 应 该 是 1。 





TAT 





























示例 10-12 中 实现 的 _hash__ 方法 是 一 种 映射 归 约 计算 〈 见 图 10-2). 


Tepe Tgn 





Ne yee reduce 
© 


S 10-2: 映射 归 约 : 把 函数 应 用 到 各 个 元 素 上 ， 生 成 一 个 新 序列 (映射 ，map ) ， 然 后 计算 聚合 
值 ( 归 约 ，reduce) 











映射 过 程 计算 各 个 分 量 的 散 列 值 ， 归 约 过 程 则 使 用 xor aR A ATA IIE. JEER at 
表达 式 替 换 成 map 方法， 映射 过 程 更 明显 : 
def _ hash__(self): 


hashes = map(hash, self._components) 
return functools.reduce(operator.xor, hashes) 





在 Python 2 中 使 用 map 函数 效率 低 些 ， 因 为 map 函数 要 使 用 结果 构建 一 个 列 
表 。 但 是 在 Python 3 中 ，map 函数 是 惰性 的 ， 它 会 创建 一 个 生成 器 ， 按 需 产 出 
结果 ， 因 此 能 节省 这 与 示例 10-12 中 使 用 生成 器 表达 式 定义 hash 


方法 的 原理 一 样 。 









































既然 讲 到 了 归 约 函数 ， 那 就 把 前 面 草 草 实 现 的 _eq_ 方法 修改 一 下 ,减少 处 理 时 间 和 内 存 
用 量 一 一 至 少 对 大 型 向 量 来 说 是 这 样 。 如 示例 9-2 Aar, ea 方法 的 实现 可 以 非常 简洁 : 
def __eq__ (self, other): 
return tuple(self) == tuple(other) 











Vector2d 和 Vector 都 可 以 这 样 做 ， 它 甚至 还 会 认为 Vector([1，2]) 和 (1，2) 相等 。 这 或 
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许 是 个 问题 ， 不 过 我 们 暂且 忽略。" 可 是 ， 这 样 做 对 有 几 千 个 分 量 的 Vector 实例 来 说 ， 效 
率 十 分 低下 。 上 述 实现 方式 要 完整 复制 两 个 操作 数 ， 构 建 两 个 元 组 ， 而 这 人 么 做 只 是 为 了 使 
用 tuple 类 型 的 _eq 方法。 对 Vector2d (只 有 两 个 分 量 ) 来 说 ， 这 是 个 捷径 ， 但 是 对 
维 数 很 多 的 向 量 来 说 情况 就 不 同 了 。 示 例 10-13 中 比较 两 个 Vector 实例 (或 者 比较 一 个 
Vector 实例 与 一 个 可 迁 代 对 象 ) 的 方式 更 好 。 


示例 10-13 为 了 提高 比较 的 效率 ，Vector._eq__ 方法 在 for 循环 中 使 用 zip 函数 
def _eq_(self, other): 
if len(self) != len(other): #@ 
return False 
for a, b in zip(self, other): #@ 
ifail=b: #6 
return False 
return True # @ 


O 如 果 两 个 对 象 的 长 度 不 一 样 ， 那 么 它们 不 相等 。 

O zip 函数 生成 一 个 由 元 组 构成 的 生成 器 ， 元 组 中 的 元 素来 自 参 数 传 入 的 各 个 可 迭代 对 
象 。 如 果 不 熟 悉 zip 函数 ， 请 阅读 “出 色 的 zip 函数 ”附注 栏 。 前 面 比 较 长 度 的 测试 是 
有 必要 的 ， 因 为 一 旦 有 一 个 输入 耗 尽 ，zip 函数 会 立即 停止 生成 值 ， 而 且 不 发 出 警告 。 

O 只 要 有 两 个 分 量 不 同 ， 返 回 False, RH. 

O 否则 ， 对 象 是 相等 的 。 


示例 10-13 的 效率 很 好 ， 不 过 用 于 计算 聚合 值 的 整个 for 循环 可 以 替换 成 一 行 all 函数 调 
用 : 如 果 所 有 分 量 对 的 比较 结果 都 是 True， 那 么 结果 就 是 True。 只 要 有 一 次 比较 的 结果 是 
False, all 国 数 就 返回 False。 使 用 all 函数 实现 eq 方法 的 方式 如 示例 10-14 所 示 。 
示例 10-14 使 用 zip Fl all 函数 实现 Vector._eq__ 方 法， 逻辑 与 示例 10-13 一 样 


def _eq_ (self, other): 
return Len(self) == len(other) and all(a == b for a, b in zip(self, other)) 


注意 ， 首 先 要 检查 两 个 操作 数 的 长 度 是 否 相 同 ， 因 为 zip 函数 会 在 最 短 的 那个 操作 数 耗 尽 
时 停止。 


我 们 选择 在 vector_v4.py 中 采用 示例 10-14 中 实现 的 _eq_ ”方法 。 
本 章 最 后 要 像 Vector2d 类 那样 ， 为 Vector 类 实现 _format_ ”方法 。 






























































出 色 的 zip 函数 


使 用 for 箱 环 透 代 元 素 不 用 处 理 索 引 变 量 ， 还 能 避免 很 多 缺陷 ， 但 是 需要 一 些 特殊 的 
实用 函数 协助 。 其 中 一 个 是 内 置 的 zip HA, RA zip 函数 能 轻松 地 并 行 选 代 两 个 或 
素 。 如 示例 10-15 所 示 。 











注 6: 13.1 节 会 认真 对 待 vector([1，2]) == (1，2) 这 个 问题 。 
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zip 函数 的 名 字 取 自 拉 链 系 结 物 (zipper fastener) ， 因 为 这 个 物品 用 于 把 
两 个 拉链 边 的 链 牙 咬合 在 一 起 ， 这 形象 地 说 明了 zip(Left，right) 的 作 
FA, zip 函数 与 文件 压缩 没有 关系 。 











示例 10-15 zip 内 置 函数 的 使 用 示例 
>>> zip(range(3), 'ABC') #@ 
<zip object at 0x10063ae48> 
>>> list(zip(range(3), 'ABC')) #@ 
[(0, 'A'), (1, 'B'), (2, 'C')] 
>>> list(zip(range(3), 'ABC', [0.0, 1.1, 2.2, 3.3])) # © 
[(0, 'A', 0.0), (1, 'B', 1.1), (2, 'C', 2.2)] 
>>> from itertools import zip_longest # @ 
>>> List(zip_longest(range(3), 'ABC', [0.0, 1.1, 2.2, 3.3], fillvalue=-1)) 
[(0, 'A', 0.0), (1, 'B', 1.1), (2, 'C', 2.2), (-1, -1, 3.3)] 


O zip 函数 返回 一 个 生成 器 ， 按 需 生 成 元 组 。 

@ 为 了 输出 ， 构 建 一 个 列表 ; 通常 ， 我 们 会 选 代 生成 器 

© zip 有 个 奇怪 的 特性 : 当 一 个 可 选 代 对 象 耗 尽 后 ， 它 它 不 发 出 警告 就 停止 

@ itertools.zip_longest 函数 的 行为 有 所 不 同 : 使 用 可 选 的 fillvalue (默认 值 为 
None) 填充 缺失 的 值 ， 因 此 可 以 继续 产 出 ， 直 到 最 长 的 可 选 代 对 象 耗 尽 。 


为 了 避免 在 for 循环 中 手动 处 理 索 引 变 量 ， 还 经 常 使 用 内 置 的 enumerate 生成 器 函数 。 
de RAR AR HK A enumerate 函数 ， 一 定 要 阅读 “Build-in Functions” 文 档 (https://docs. 
python.org/3/library/functions.html#enumerate), 内置 的 zip f enumerate 函数 ， 以 及 标 
准 库 中 其 他 几 个 生成 器 函数 在 14.9 节 讨 论 。 








10.7 ”Vector 类 第 5 版 : 格式 化 


Vector 类 的 _format “方法 与 Vector2d 类 的 相似 ， 但 是 不 使 用 极 坐 标 ， 而 使 用 球面 坐标 
(也 叫 超 球面 坐标 ) ， 因 为 Vector 类 支持 于 个 维度 ， 而 超过 四 维 后 ,球体 变 成 了 “ 超 球体 ”。 * 
因此 ， 我 们 会 把 自 定义 的 格式 后 级 由 'p' 变 成 'h'。 














9.5 节 说 过 ， 扩 展 格 式 规范 微 语言 (https://docs.python.org/3/library/string.html 
#formatspec) 时 ， 最 好 避免 重用 内 置 类 型 支持 的 格式 代码 。 这 里 对 微 语言 
的 扩展 还 会 用 到 浮 点 数 的 格式 代码 'eEfFgGn%' ， 而 且 保 持原 意 ， 因 此 绝对 
要 避免 重用 代码 。 整 数 使 用 的 格式 代码 有 'bcdoxxn' ， 字 符 串 使 用 的 是 's'。 
在 Vector2d 类 中 ， 我 选择 使 用 'p' 表示 极 坐 标 。 使 用 'h' 表示 超 球 面 坐标 
(hyperspherical coordinate) 是 个 不 错 的 选择 。 





wm 




















注 7: 至 少 对 我 来 说 ， 这 是 奇怪 的 。 我 认为 ， 当 组 合 不 同 长 度 的 可 迭代 对 象 时 ，zip 应 该 抛 出 ValueError。 
注 8: Wolfram Mathworld 网 站 中 有 一 篇 介绍 超 球体 的 文章 (http://mathworld.wolfram.com/Hypersphere. 
html) ; 维基 百科 会 把 “ 超 球体 ” 词 条 重 定向 到 “7 维 球体 ” 词 条 (http://en.wikipedia.org/wiki/N-sphere ) 。 




















244 | 第 10 章 




















例如 ， 对 四 维 空间 (len(v) == 4) 中 的 Vector 对 象 来 说 ，'h' 代码 得 到 的 结果 是 这 样 : 
<r, Qs 0, 03>. Hr, r 是 模 (abs(v))， 余 下 三 个 数 是 角 坐 标 O,, D, 和 Do 


下 面 几 个 示例 摘自 vector_v5.py 的 doctest (参见 示例 10-16) ， 是 四 维 球面 坐标 格式 : 


>>> format(Vector([-1, -1, -1, -1]), 'h') 

"<2.0, 2.0943951023931957, 2.186276035465284, 3.9269908169872414>' 
>>> format(Vector([2, 2, 2, 2]), '.3eh') 

'<4.000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 

>>> format(Vector([0, 1, 0, 0]), 'O.5fh') 

'<1.00000, 1.57080, 0.00000, 0.00000>' 


在 小 幅 改动 _format “方法 之 前 ， 我 们 要 定义 两 个 辅助 方法 : 一 个 是 angte(n) ， 用 于 计算 
某 个 角 坐 标 (如 1) ， 另 一 个 是 angles()， 返回 由 所 有 和 角 坐标 构成 的 可 和 迭代 对 和 象 。 我 们 不 
会 讲解 其 中 涉及 的 数学 原理 ， 如 果 你 好 奇 的 话 ， 可 以 查看 维基 百科 中 的 “7 维 球体 ” 词 条 
(https:Wen.wikipedia.org/wikiN-sphere) ， 那 里 有 几 个 公式 ， 我 就 是 使 用 它们 把 Vector 实例 
分 量 数组 内 的 笛 卡 儿 坐 标 转换 成 球面 坐标 的 。 

示例 10-16 是 vector_v5.py 脚本 的 完整 代码 ， 包 含 自 10.2 节 以 来 实现 的 所 有 代码 和 本 节 实 
现 的 自 定义 格式 。 


示例 10-16 vector_v5.py: Vector 类 最 终 版 的 doctest 和 全 部 代码 ， 带 标号 的 那 几 行 是 为 
了 支持 format 方法 而 添加 的 代码 
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A multidimensional ”Vector class, take 5 
A ``Vector`` is built from an iterable of numbers:: 


>>> Vector([3.1, 4.2]) 

Vector([3.1, 4.2]) 

>>> Vector((3, 4, 5)) 

Vector([3.0, 4.0, 5.0]) 

>>> Vector(range(10)) 

Vector([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 


Tests with two dimensions (same results as ``vector2d_v1.py``):: 


>>> v1 = Vector([3, 4]) 

>>> X, y = v1 

>>> X, y 

(3.0, 4.0) 

>>> v1 

Vector ([3.0, 4.0]) 

>>> vi_clone = eval(repr(v1)) 
>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0) 

>>> octets = bytes(v1) 

>>> octets 
b'd\\x00\\x00\\x00\\x00\\x00\ \x00\\x08@\ \x00\\xO0\\x00\\x00\\x00\\x00\\x10@' 
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>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector([0, 0])) 
(True, False) 


Test of **.frombytes()** class method: 


>>> vi_clone = Vector.frombytes(bytes(v1)) 
>>> vi_clone 

Vector([3.0, 4.0]) 

>>> v1 == vi_clone 

True 


Tests with three dimensions:: 


>>> v1 = Vector([3, 4, 5]) 

>>> X, Y, Z= vi 

>>> X, y, Z 

(3.0, 4.0, 5.0) 

>>> v1 

Vector ([3.0, 4.0, 5.0]) 

>>> vi_clone = eval(repr(v1)) 
>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0, 5.0) 

>>> abs(v1) # doctest:+ELLIPSIS 
7.071067811... 

>>> bool(v1), bool(Vector([0, 0, 0])) 
(True, False) 


Tests with many dimensions:: 


>>> v7 = Vector(range(7)) 

>>> v7 

Vector([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 
>>> abs(v7) # doctest:+ELLIPSIS 
9.53939201... 


Test of ``.__bytes_`` and **.frombytes()** methods:: 


>>> v1 = Vector([3, 4, 5]) 

>>> vi_clone = Vector.frombytes(bytes(v1)) 
>>> vi_clone 

Vector([3.0, 4.0, 5.0]) 

>>> v1 == vi_clone 

True 


Tests of sequence behavior:: 





>>> v1 = Vector([3, 4, 5]) 

>>> len(v1) 

3 

>>> v1[0], vi[len(v1)-1], vi[-1] 
(3.0, 5.0, 5.0) 


Test of slicing:: 


>>> v7 = Vector(range(7)) 

>>> v7[-1] 

6.0 

>>> v7[1:4] 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] 

Vector([6.0]) 

>>> v7[1,2] 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 


Tests of dynamic attribute access:: 


>>> v7 = Vector(range(10)) 
>>> V7 .X 

0.0 

>>> v/.y, v/.z, v7.t 
(1.0, 2.0, 3.0) 


Dynamic attribute lookup failures:: 


>>> v7.k 
Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 'k' 
>>> v3 = Vector(range(3)) 

>>> v3.t 

Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 't' 
>>> v3.spam 
Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 'spam' 


Tests of hashing:: 


>>> v1 = Vector([3, 4]) 

>>> v2 = Vector([3.1, 4.2]) 

>>> v3 = Vector([3, 4, 5]) 

>>> v6 = Vector(range(6)) 

>>> hash(v1), hash(v3), hash(v6) 
(7, 2, 1) 
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Most hash values of non-integers vary from a 32-bit to 64-bit CPython build:: 


>>> import sys 
>>> hash(v2) == (384307168202284039 if sys.maxsize > 2**32 else 357915986) 
True 


Tests of ``format()`` with Cartesian coordinates in 2D:: 


>>> v1 = Vector([3, 4]) 
>>> format(v1) 

'(3.0, 4.0)' 

>>> format(vi, '.2f') 
'(3.00, 4.00)' 

>>> format(v1, '.3e') 
"(3.000e+00, 4.000e+00)' 


Tests of ``format()`` with Cartesian coordinates in 3D and 7D:: 


>>> v3 = Vector([3, 4, 5]) 

>>> format(v3) 

'(3.0, 4.0, 5.0)! 

>>> format(Vector(range(7))) 

'(0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0)' 


Tests of ``format()`` with spherical coordinates in 2D, 3D and 4D:: 


>>> format(Vector([1, 1]), 'h') # doctest:+ELLIPSIS 
'<1.414213..., 0.785398...>' 

>>> format(Vector([1, 1]), '.3eh') 

'<1.414e+00, 7.854e-01>' 

>>> format(Vector([1, 1]), '0.5fh') 

'<1.41421, 0.78540>' 

>>> format(Vector([1, 1, 1]), 'h') # doctest:+ELLIPSIS 
'<1.73205..., @.95531..., 0.78539...>' 

>>> format(Vector([2, 2, 2]), '.3eh') 

'<3.464e+00, 9.553e-01, 7.854e-01>' 

>>> format(Vector([0, 0, 0]), '0.5fh') 

'<0.00000, 0.00000, 0.00000>' 

>>> format(Vector([-1, -1, -1, -1]), 'h') # doctest:+ELLIPSIS 
'<2.0, 2.09439..., 2.18627..., 3.92699...>' 

>>> format(Vector([2, 2, 2, 2]), '.3eh') 

'<4.000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 

>>> format(Vector([0, 1, 0, 0]), '0.5fh') 

'<1.00000, 1.57080, 0.00000, 0.00000>' 


from array import array 
import reprlib 

import math 

import numbers 





import functools 
import operator 
import itertools @ 


class Vector: 
typecode = 'd' 


def 


def 


def 


def 


def 


def 


def 


def 


def 


def 


def 


__init__(self, components): 
self._components = array(self.typecode, components) 


__iter__(self): 
return iter(self. components) 


__repr__(self): 

components = reprlib.repr(self. components) 
components = components[components.find('['):-1] 
return 'Vector({})'.format(components ) 


__str__(self): 
return str(tuple(self)) 


__bytes__(self): 
return (bytes([ord(self.typecode)]) + 
bytes(self._components) ) 


__eq__(self, other): 
return (len(self) == Len(other) and 
all(a == b for a, b in zip(self, other))) 


__hash__(self): 
hashes = (hash(x) for x in self) 
return functools.reduce(operator.xor, hashes, 0) 


__abs__(self): 
return math.sqrt(sum(x * x for x in self)) 


__bool__(self): 
return bool(abs(self)) 


__len__(self): 
return Len(self._components) 


__getitem__(self, index): 
cls = type(self) 
if isinstance(index, slice): 
return cls(self._components[index]) 
elif isinstance(index, numbers.Integral): 
return self. _components[ index] 
else: 
msg = '{.__name__} indices must be integers' 
raise TypeError(msg.format(cls)) 


shortcut_names = 'xyzt' 
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def _ getattr_ (self, name): 

cls = type(self) 
if len(name) == 1: 

pos = cls.shortcut_names.find(name) 

if 0 <= pos < len(self._components): 

return self._components[pos] 

msg = '{.__name__!r} object has no attribute {!r}' 
raise AttributeError(msg.format(cls, name)) 


def angle(self, n): @ 
r = math.sqrt(sum(x * x for x in self[n:])) 
a = math.atan2(r, self[n-1]) 
if (n == len(self) - 1) and (self[-1] < 0): 
return math.pi * 2 -a 
else: 
return a 
def angles(self): © 


return (self.angle(n) for n in range(1, len(self))) 


def _ format__(self, fmt_spec=''): 

if fmt_spec.endswith('h'): # 超 球面 坐标 
fmt_spec = fmt_spec[:-1] 
coords = itertools.chain([abs(self)], 

self.angles()) @ 

outer_fmt = '<{}>' 日 

else: 
coords = self 


outer_fmt = '({})' O 
components = (format(c, fmt_spec) for c in coords) @ 
return outer_fmt.format(', '.join(components)) ©@ 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[0]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(memv) 


O 为 7 在 __format_ 方法 中 使 用 chain 国 数 ， 导 入 itertools 模块 。 

O 使 用 “n 维 球体 ” 词 条 (http://en.wikipedia.org/wiki/N-sphere) 中 的 公式 计算 某 个 角 坐 标 。 
© 创建 生成 器 表达 式 ， 按 需 计 算 所 有 角 坐 标 。 

© 使 用 itertools.chain 国 数 生成 生成 器 表达 式 ， 无 颖 迭代 向 量 的 模 和 各 个 角 坐 标 。 

O 配置 使 用 尖 括 号 显示 球面 坐标 。 

O 配置 使 用 圆 括 号 显示 第 卡 儿 坐标 。 

O 创建 生成 器 表达 式 ， 按 需 格式 化 各 个 坐标 元 素 。 

O 把 以 辟 号 分 隔 的 格式 化 分 量 插 入 尖 括 号 或 圆 括 号 。 


FRE format, angle 和 angles 中 大 量 使 用 了 生成 器 表达 式 ， 不 过 我 们 
的 目的 是 让 Vector 类 的 _format “方法 与 Vector2d 类 处 在 同一 水 平 上 。 第 
14 章 讨论 生成 器 时 会 使 用 Vector 类 中 的 部 分 代码 举例 ， 然 后 详细 说 明生 成 器 
的 技巧 。 


















































本 章 的 任务 到 此 结束 。 第 13 章 会 改进 Vector 类 ， 让 它 支 持 中 级 运算 符 。 本 章 的 目的 是 探 
讨 如 何 编写 集合 类 广泛 使 用 的 几 个 特殊 方法 。 


10.8 ”本 章 小 结 


本 章 所 举 的 Vector 示例 故意 与 Vector2d 兼容 ， 不 过 二 者 的 构造 方法 签名 不 同 ，Vvector 类 
的 构造 方法 接受 一 个 可 迭代 的 对 象 ， 这 与 内 置 的 序列 类 型 一 样 。vector 的 行为 之 所 以 像 序 
列 ， 是 因为 它 实 现 了 _getitemn “和 _ ten 方法， 借 此 ， 我 们 讨论 了 协议 ， 这 是 鸭子 类 
型 语言 使 用 的 非 正 式 接口 。 
然后 ， 我 们 说 明了 my_seq[a:b:c] 句法 背后 的 工作 原理 : 创建 slice(a，b，c) 对 象 ， 交 给 
_ getitem “方法 处 理 。 了 解 这 一 点 之 后 ， 我 们 让 Vector 正确 处 理 切 片 ， 像 符合 Python 风 
格 的 序列 那样 返回 新 的 Vector 实例 。 

接 下 来 ， 我 们 为 Vector 实例 的 头 几 个 分 量 提供 了 只 读 访问 功能 ， 使 用 my_vec.x 这 样 的 
表示 法 。 这 一 点 通过 _getattr_ “方法 实现 。 实 现 这 一 功能 之 后 ， 用 户 会 想 通 过 my_vec. 
x = 7 这 样 的 写法 为 头 几 个 分 量 赋 值 一 一 这 是 一 个 潜在 的 缺陷 。 为 了 解决 这 个 问题 ， 我 们 
又 实现 了 _setattr 方法， 通过 它 禁止 为 单字 母 属性 赋值 。 大 多 数 时 候 ， 如 果 定 义 了 — 
getattr 方法， 那么 也 要 定义 _setattr 方法 ,这 样 才能 避免 行为 不 一 致 。 


实现 _hash_ 方法 特别 适合 使 用 functools.reduce 函数 ， 因 为 我 们 要 把 异 或 运算 符 ^ 依次 
应 用 到 各 个 分 量 的 散 列 值 上 ， 生 成 整个 向 量 的 聚合 散 列 值 。 在 hash 方法 中 使 用 reduce 
函数 之 后 ， 我 们 又 使 用 内 置 的 归 约 函数 all 实现 了 效率 更 高 的 __eq_ 方法 。 


Vector 类 的 最 后 一 项 改进 是 在 vector2d 的 基础 上 重新 实现 format__ 方法 ， 这 一 次 ， 除 
了 支持 笛 卡 儿 坐 标 ， 我 们 还 支持 了 球面 坐标 。 为 了 定义 _format “方法 及 其 辅助 方法 ， 我 
们 用 到 了 很 多 数学 知识 和 几 个 生成 器 ， 但 这 些 是 实现 细节 。 第 14 章 会 再 次 讨论 生成 器 。 
最 后 一 节 的 目的 是 支持 自 定义 格 式 ， 从 而 兑现 承诺 ， 让 Vector 与 Vector2d 兼容 ， 此 外 还 
能 做 更 多 的 事情 。 

与 第 9 章 一 样 ， 我 们 经 常 分 析 Python 标准 对 象 的 行为 ， 然 后 进行 模仿 ， 让 vector 的 行为 
符合 Python 风格 。 

第 13 章 将 为 Vector 实现 几 个 中 组 运算 符 。 第 13 章 使 用 的 数学 知识 比 angle() 方法 用 到 的 
简单 多 了 ， 但 是 通过 了 解 Python 中 组 运算 符 的 工作 方式 ， 我 们 对 面向 对 象 设 计 的 认识 将 更 
进一步 。 讨 论 运算 符 重 载 之 前 ， 我 们 将 先 定 义 一 个 类 ， 说 明 如 何 使 用 接口 和 继承 组 织 多 个 
类 一 一 这 是 第 11 章 和 第 12 章 的 话题 。 


10.9 ”延伸 阅读 


Vector 类 中 的 大 多 数 特殊 方法 在 第 9 章 定义 的 Vector2d 类 中 也 有 ， 因 此 前 一 章 给 出 的 延 人 
阅读 材料 同样 适合 本 章 。 

强大 的 高 阶 函 数 reduce 也 叫 合 拢 、 累 计 、 聚 合 、 压 缩 和 注入。 更 多 信息 参见 维基 百科 
中 AY “Fold (higher-order function)” 词 条 (https://en.wikipedia.org/wiki/Fold_(higher-order_ 
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function))。 这 篇 文章 展示 了 高 阶 函 数 的 用 途 ， 着 重 说 明了 具有 递归 数据 结构 的 函数 式 语 
言 。 这 篇 文章 中 还 有 一 个 表格 ， 列 出 了 很 多 编程 语言 中 起 合拢 作用 的 函数 。 














A K 
把 协议 当 作 非 正式 的 接口 


协议 不 是 Python KAA, Smalltalk 团队 ， 也 就 是 “面向 对 象 ”的 发 明 者 ， 使 用 “ 协 
议 ” 这 个 词 表示 现在 我 们 称 之 为 接口 的 特性 。 某 些 Smalltalk 编程 环境 允许 程序 员 把 一 
组 方法 标记 为 协议 ， 但 这 只 不 过 是 一 种 文档 ， 用 于 辅助 导航 ， 语 言 不 对 其 施加 特定 措 
ge, Att, MRALX (而 且 编 译 器 会 施加 措施 ) 接口 的 人 解释 “协议 ”时 ， 我 会 简 
单 地 说 它 是 “ 非 正式 的 接口 ”。 
动态 类 型 语言 中 的 既定 协议 会 自然 进化 。 所 谓 动态 类 型 是 指 在 运行 时 检查 类 型 ， 因 为 
方法 签名 和 变量 没有 静态 类 型 信息 。Ruby 是 一 门 重要 的 面向 对 象 动态 类 型 语言 ， 它 也 
使 用 协议 。 
在 Python 文档 中 ， 如 果 看 到 “文件 类 对 象 ” 这 样 的 表述 ， 通 常 说 的 就 是 协议 。 这 是 一 
种 简短 的 说 法 ， 意 思 是 :“ 行 为 基本 与 文件 一 致 ， 实 现 了 部 分 文件 接口 ， 满 足 上 下 文 相 
关 需 求 的 东西 。” 
你 可 能 觉得 只 实现 协议 的 一 部 分 不 够 严谨 ,但 是 这 样 做 的 优点 是 简单 。“Data Model” 
一 章 的 3.3 节 ( 
建议 : 

模仿 内 置 类 型 实现 类 时 ， 记 住 一 点 : 模仿 的 程度 对 建 模 的 对 象 来 说 合理 即 可 。 

例如 ， 有 些 序列 可 能 只 需要 获取 单个 元 素 ， 而 不 必 提 取 切 片 。 

一 一 Python 语言 参考 手册 中 “Data Model” 一 章 

不 要 为 了 满足 过 度 设 计 的 接口 契约 和 让 编译 器 开心 ， 而 去 实现 不 需要 的 方法 ， 我 们 要 
遵守 KISS 原则 (http://en.wikipedia.org/wiki/KISS_principle) 。 


https://docs.python.org/3/reference/datamodel.html#special-method-names ) 


第 11 章 还 会 讨论 协议 和 接口 ， 这 正 是 那 一 章 的 主要 话题 。 

AGF SY ACT 

我 相信 Ruby 社区 在 “鸭子 类 型 ”这 个 术语 的 推广 过 程 中 起 了 主要 作用 ， 因 为 他 们 向 
大 量 Java 使 用 者 宣扬 了 这 个 说 法 。 但 是 ， 在 Ruby 或 Python 流行 起 来 之 前 ，Python 就 
使 用 这 个 术语 了 。 根 据 维基 百科 ， 在 面向 对 象 编程 中 较 早 使 用 鸭子 作 比 喻 的 人 是 Alex 
Martelli， 在 他 于 2000 年 7 月 26 日 发 到 Python-list 中 的 一 篇 文章 里 :“polymorphism 
(was Re: Type checking in python?)” (https://mail.python.org/pipermail/python-list/2000- 
July/046184.html) 。 本 章 开 头 引用 的 那 铅 话 就 出 自 那 篇 文章 。 如 果 你 想 知 道 “鸭子 类 
型 ”这 个 术语 的 真正 起 源 ， 以 及 很 多 编程 语言 对 这 个 面向 对 象 概念 的 运用 ， 请 阅读 维 
基 百 科 中 的 “Ducktyping” 词 条 (http://en.wikipedia.org/wiki/Duck_typing) . 
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安全 的 format 方法， 增强 可 用 性 


RM format 方法 时 ,我 们 没有 采取 措施 防范 Vector 实例 拥有 大 量 分 量 ， 不 过 在 
repr 方法 中 我 们 使 用 reprlib 做 了 预防 。 这 是 因为 repr() 函数 用 于 调试 和 记录 日 
志 ， 所 以 必须 生成 可 用 的 输出 ; 而 _format_ 方法 用 于 向 最 终 用 户 显示 输出 ， 他 们 大 概 
想 看 到 整个 Vector。 如 果 你 觉得 这 样 做 危险 ， 可 以 再 为 格式 规范 微 语言 实现 一 个 扩展 。 


如 果 是 我 ， 我 会 这 么 做 : RULE, BAH Vector 实例 显示 有 限 个 分 量 ， 比 如 说 
30 个 。 如 果 元 素数 量 超 过 上 限 ， 默 认 的 行为 是 像 reprlib 那样 ， 堆 断 超出 的 部 分 ， 使 
用 ... 表示 。 然 而 ， 如 果 格 式 说 明 符 后 面 有 特殊 的 * 代码 (意思 是 “全 部 ”)， 那么 就 
不 限制 显示 的 元 素数 量 。 因 此 ， 用 户 在 不 知情 的 情况 下 不 会 被 特别 长 的 输出 吓 到 。 如 
果 默 认 的 上 限 碍 事 ， BA... 的 存在 对 用 户 是 个 提醒 ， 用 户 研究 文档 后 会 发 现 * 格式 
代码 。 


如 果 你 实现 了 ， 请 向 本 书 的 GitHub 仓库 (https://github.com/fluentpython/example-code) 
发 一 个 拉 取 请 求 (pull request) 。 


寻找 符合 Python 风格 的 求 和 方式 

就 像 “ 什 么 是 美 ” 没 有 确切 的 答案 一 样 ,，“ 什 么 是 Python 风格 ”也 没有 标准 答案 。 如 
果 回 答 “ 地 道 的 Python”( 我 通常 会 这 样 说 ) ， 不 能 让 人 100% 满意 ， 因 为 对 你 来 说 是 
“地 道 的 "， 在 我 看 来 却 可 能 不 是 。 但 我 可 以 肯定 的 是 ,“ 地 道 ”并 不 是 指使 用 最 鲜 为 人 
知 的 语言 特性 。 

Python-list (https://mail.python.org/mailman/listinfo/python-list) 中 有 一 篇 发 表 于 2003 年 4 月 
的 话题 ， 题 为 “Pythonic Way to Sum n-th List Element?” (https://mail.python.org/pipermail/ 
python-list/2003-April/218568.html) 。 这 个 话题 与 本 章 讨论 的 reduce HAA KX, 

该 话题 的 发 起 人 Guy Middleton 说 他 不 喜欢 使 用 lambda 表达 式 ， 问 下 面 这 个 方案 有 没 
有 办 法 改进 :“ 


>>> my_list = [[1, 2, 3], [40, 50, 60], [9, 8, 7]] 

>>> import functools 

>>> functools.reduce(lambda a, b: a+b, [sub[1] for sub in my_list]) 
60 


这 段 代码 有 很 多 习惯 用 法 : lambda, reduce 和 列表 推导 。 最 终 ， 这 可 能 会 变 成 人 气 竞 
赛 ， 因 为 它 冒 犯 了 讨厌 lambda 的 人 和 看 不 上 列表 推导 的 人 一 一 这 两 种 人 都 很 多 。 


如 果 使 用 Lambda， 或 许 就 不 应 该 使 用 列表 推导 一 一 过 滤 除 外 ， 但 这 不 是 过 滤 。 
下 面 是 我 给 出 的 方案 ， 这 能 讨 得 lambda 拥护 者 的 欢心 : 








注 9: 为 了 在 此 展示 ， 我 稍微 修改 了 这 段 代 码 ， 因 为 在 2003 年 ，reduce 是 内 置 函数 ， 而 在 Python 3 中 要 导入 。 





























此 外 ,我 把 x 和 y 换 成 了 my_tist 和 sub (表示 子 串 )。 
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>>> functools.reduce(Lambda a, b: a + b[1], my_list, 0) 
60 


我 没有 参与 那个 话题 ， 而 且 我 不 会 在 真实 的 代码 中 使 用 上 述 方案 ， 因 为 我 非常 不 喜欢 
lambda 表达 式 。 这 里 只 是 为 了 举例 说 明 不 使 用 列表 推导 怎么 做 。 


第 一 个 答案 是 Fernando Perez 给 出 的 ， 他 是 IPython 的 创建 者 ， 他 的 答案 强调 了 
NumPy 支持 n 维 数组 和 nn 维 切 片 : 

>>> import numpy as np 

>>> my_array = np.array(my_List) 


>>> np.sum(my_array[:, 1]) 
60 


我 觉得 Perez 的 方案 很 棒 ， 不 过 Guy Middleton 推 党 Paul Rubin 和 Skip Montanaro 给 出 
的 下 述 方案 : 
>>> import operator 


>>> functools.reduce(operator.add, [sub[1] for sub in my_list], 0) 
60 


随后 ，Evan Simpson 问 道 :“ 这 样 做 有 什么 错 ? ” 


>>> total = 0 

>>> for sub in my_list: 
x total += sub[1] 
>>> total 
60 


许多 人 都 觉得 这 也 很 符合 Python 风格 。Alex Martelli 甚至 说 ，Guido 或 许 就 会 这 么 做 。 
我 喜欢 Evan Simpson 的 代码 ， 不 过 也 喜欢 David Eppstein 对 此 给 出 的 评论 : 


如 果 你 想 计算 列表 中 各 个 元 素 的 和 ， 写 出 的 代码 应 该 看 起 来 像 是 在 “计算 元 素 

之 和 ”， 而 不 是 “人选 代 元 素 ， 维 护 一 个 变量 4， 再 执行 一 系列 求 和 操作 ”。 如 果 不 

能 站 在 一 定 高 度 上 表明 意图 ， 让 语言 去 关注 低层 操作 ， 那 么 要 高 级 语言 干 嘛 ? 
之 后 Alex Martelli 又 建议 : 


求 和 操作 经 常 需要 ， 我 不 介意 Python 提供 一 个 这 样 的 内 置 函 数 。 但 是 ， 在 我 看 
A, “reduce(operator.add, ...” 不 是 好 方法 (作为 一 名 APL 老 程序 员 和 FP 语言 的 
爱好 者 ， 我 应 该 喜欢 ， 但 是 我 并 不 喜欢 ) 。 
随后 ，Alex 建议 提供 并 实现 了 sum() 函数 。 这 次 讨论 之 后 三 个 月 ，Python 2.3 就 内 置 
了 这 个 函数 。 因 此 ，Alex 喜欢 的 句法 变 成 了 标准 : 


>>> sum([sub[1] for sub in my_list]) 
60 


下 一 年 年 末 (2004 11 A), Python 2.4 发 布 了 ， 这 一 版 引入 了 生成 器 表达 式 。 因 此 ， 
在 我 看 来 ，Guy Middleton 那个 问题 目前 最 符合 Python 风格 的 答案 是 : 











>>> sum(sub[1] for sub in my_list) 
60 


这 样 写 不 仅 比 使 用 reduce 函数 更 易 阅读 ， 而 且 还 能 避免 空 序列 导致 的 陷阱 ，sun([]) 
的 结果 是 9， 就 这 么 简单 。 


在 这 次 讨论 中 ，Alex Martelli 指出 ，Python 2 内 置 的 reduce 函数 成 事 不 足 败 事 有 余 ， 
因为 它 推 荐 的 地 道 编 程 方式 难以 理解 。 他 的 观点 最 有 说 服 力 : Python 3 把 reduce 函数 
移 到 functools 模块 中 了 。 


当然 ，functools.reduce 函数 仍 有 它 的 作用 。 实 现 Vector._hash__ 方法 时 我 就 用 了 
它 ， 我 觉得 我 的 实现 方式 算得 上 符合 Python 风格 。 
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第 11 章 


接口 ， 从 协议 到 抽象 基 类 





抽象 类 表示 接口 。， 





Bjarne Stroustrup 
CPR 


本 章 讨 论 的 话题 是 接口 : 从 鸭子 类 型 的 代表 特征 动态 协议 ， 到 使 接口 更 明确 、 能 验证 实现 
是 否 符合 规定 的 抽象 基 类 (Abstract Base Class, ABC), 

如 果 用 过 Java、C# 或 类 似 的 语言 ， 你 会 觉得 鸭子 类 型 的 非 正 式 协议 很 新 奇 。 但 是 对 长 时 
间 使 用 Python 或 Ruby 的 程序 员 来 说 ， 这 是 接口 的 “常规 ”方式 ， 新 知识 是 抽象 基 类 的 严 
格 规定 和 类 型 检查 。Python 语言 诞生 15 年 后 ，Python 2.6 才 引 入 抽象 基 类 。 

本 章 先 说 明 Python 社区 以 往 对 接口 的 不 严谨 理解 : 部 分 实现 接口 通常 被 认为 是 可 接受 的 。 
我 们 将 通过 几 个 示例 强调 鸭子 类 型 的 动态 本 性 ， 从 而 证 清 这 一 点 。 

RE, RAN Alex Martelli 写 了 一 篇 短文 ， 对 抽象 基 类 做 了 介绍 ， 还 为 Python 编程 的 一 
个 新 趋势 下 了 定义 。 本 章 余 下 的 内 容 专 门 讲解 抽象 基 类 。 首 先 ， 本 章 说 明 抽象 基 类 的 常见 
用 途 : 实现 接口 时 作为 超 类 使 用 。 然 后 ， 说 明 抽象 基 类 如 何 检查 具体 子 类 是 否 符 合 接口 定 
义 ， 以 及 如 何 使 用 注册 机 制 声 明 一 个 类 实现 了 某 个 接口 ， 而 不 进行 子 类 化 操作 。 最 后 ， 说 
明 如 何 让 抽象 基 类 自动 “识别 ”任何 符合 接口 的 类 不 进行 子 类 化 或 注册 。 


我 们 将 实现 一 个 新 抽象 基 类 ， 看 看 它 的 运作 方式 。 但 是 ， 我 和 Alex Martelli 都 不 建议 你 自 
己 编写 抽象 基 类 ， 因 为 很 容易 过 度 设计 。 


















































注 1: Bjarne Stroustrup, The Design and Evolution of C++ (Addison-Wesley, 1994), p. 278. 
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抽象 基 类 与 描述 符 和 元 类 一 样 ， 是 用 于 构建 框架 的 工具 。 因 此 ， 只 有 少数 
Python 开发 者 编写 的 抽象 基业 不 会 对 用 户 施加 不 必要 的 限制 ， 让 他 们 做 无 用 功 。 














下 面 我 们 从 Python 风格 的 角度 探讨 接口 。 


11.1 Python 文化 中 的 接口 和 协议 


引入 抽象 基 类 之 前 ，Python 就 已 经 非常 成 功 了 ， 即 便 现 在 也 很 少 有 代码 使 用 抽象 基 类 。 第 
1 章 就 已 经 讨论 了 鸭子 类 型 和 协议 。 在 10.3 节 ， 我 们 把 协议 定义 为 非 正 式 的 接口 ， 是 让 
Python 这 种 动态 类 型 语言 实现 多 态 的 方式 。 

接口 在 动态 类 型 语言 中 是 怎么 运作 的 呢 ? 首先 ， 基 本 的 事实 是 ，Python 语言 没有 
interface 关键 字 ， 而 且 除 了 抽象 基 类 ， 每 个 类 都 有 接口 : 类 实现 或 继承 的 公开 属性 OF 
法 或 数据 属性 ) ， 包 括 特殊 方法 ， 如 _getitem 或、add 

按照 定义 ， 受 保护 的 属性 和 私有 属性 不 在 接口 中 : 即便 “ 受 保护 的 ”属性 也 只 是 采用 命名 
约定 实现 的 (单个 前 导 下 划 线 ) ;， 私有 属性 可 以 轻松 地 访问 (参见 9.7 节 )， 原 因 也 是 如 
此 。 不 要 违背 这 些 约定 。 

另 一 方面 ， 不 要 觉得 把 公开 数据 属性 放 和 人 对象 的 接口 中 不 受 ， 因 为 如 果 需 要 ， 总 能 实现 读 
值 方法 和 设 值 方法 ， 把 数据 属性 变 成 特性 ， 使 用 obj.attr 句法 的 客户 代码 不 会 受到 影响 。 
Vector2d 类 就 是 这 么 做 的 ， 示 例 11-1 是 Vector2d 类 的 第 一 版 ，x 和 y 是 公开 属性 。 


示例 11-1 vector2d_v0.py: x Fly 是 公开 数据 属性 (代码 与 示例 9-2 相同 ) 
class Vector2d: 
typecode = 'd' 























% 





def _ init (self, x, y): 
self.x = float(x) 
self.y = float(y) 


def _ iter__(self): 
return (i for i in (self.x, self.y)) 











# 下 面 是 其 他 方法 (这 个 代码 清单 将 其 省 略 了 ) 
在 示例 9-7 中 ， 我 们 把 x 和 y 变 成 了 只 读 特 性 ( 见 示例 11-2)。 这 是 一 项 重大 重 构 ， 但 是 
Vector2d 的 接口 基本 没 变 :; 用 户 仍 能 读 取 my_vector.x 和 my_vector.y。 


示例 11-2 vector2d_v3.py: 使 用 特性 实现 x 和 y (完整 的 代码 清单 参见 示例 9-9) 
class Vector2d: 
typecode = 'd' 

















def __ init__(self, x, y): 
self. x = float(x) 
self.__y = float(y) 
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@property 
def x(self): 
return self. x 


@property 
def y(self): 
return self.__y 


def _iter__ (self): 
return (i for i in (self.x, self.y)) 








# 下 面 是 其 他 方法 (这 个 代码 清单 将 其 省 略 了 ) 


关于 接口 ， 这 里 有 个 实用 的 补充 定义 : 对 象 公开 方法 的 子 集 ， 让 对 象 在 系统 中 扮演 特定 的 
角色 。Python 文档 中 的 “文件 类 对 象 ”或 “可 返 代 对 象 ”就 是 这 个 意思 ， 这 种 说 法 指 的 不 
是 特定 的 类 。 接 口 是 实 现 特定 角色 的 方法 集合 ， 这 样 理解 正 是 Smalltalk 程序 员 所 说 的 协 
议 ， 其 他 动态 语言 社区 都 借鉴 了 这 个 术语 。 协 议 与 继承 没有 关系 。 一 个 类 可 能 会 实现 多 个 
接口 ， 从 而 让 实例 扮演 多 个 角色 。 

协议 是 接口 ， 但 不 是 正式 的 (只 由 文档 和 约定 定义 )， 因 此 协议 不 能 像 正 式 接口 那样 施加 
限制 (本章 后 面 会 说 明 抽象 基 类 对 接口 一 致 性 的 强制 )。 一 个 类 可 能 只 实现 部 分 接口 ， 这 
是 允许 的 。 有 时 ， 某 些 API 只 要 求 “文件 类 对 象 ”返回 字 节 序列 的 .read() 方法 。 在 特定 
的 上 下 文中 可 能 需要 其 他 文件 操作 方法 ， 也 可 能 不 需要 。 

写作 本 书 时 ，Python 3 中 memoryview 的 文档 (https://docs.python.org/3/library/stdtypes.html# 
typememoryview) 说 ， 它 能 处 理 “ 支 持 缓冲 协议 的 对 象 "， 不 过 缓冲 协议 的 文档 是 针对 C 
API 的 。bytearray 的 构造 方法 (https://docs.python.org/3/library/functions.html#bytearray) 接 
受 “ 一 个 符合 缓冲 接口 的 对 象 ”~” 如今， 文档 正在 改变 用 词 ， 使 用 “ 字 节 序列 类 对 象 ” 这 样 
更 加 友好 的 表述 。 ”我 指出 这 一 点 是 为 了 强调 ， 对 Python 程序 员 来 说 ,，“X 类 对 象 ”“X 协 
议 ” 和“X 接口 ”都 是 一 个 意思 。 

序列 协议 是 Python 最 基础 的 协议 之 一 。 即 便 对 象 只 实现 了 那个 协议 最 基本 的 一 部 分 ， 解 释 
器 也 会 负责 任 地 处 理 ， 如 下 一 节 所 示 。 


11.2 ”Python 喜欢 序列 


Python 数据 模型 的 哲学 是 尽量 支持 基本 协议 。 对 序列 来 说 ， 即 便 是 最 简单 的 实现 ，Python 
也 会 力求 做 到 最 好 。 


图 11-1 展示 了 定义 为 抽象 基 类 的 Sequence 正式 接口 。 


























































































































注 2: 其 实 ，Issue 16518:“add buffer protocol to glossary”(http://bugs.python.org/issue16518) 做 的 就 是 这 种 修改 ， 
把 很 多 “支持 缓冲 协议 /接口 /API 的 对 象 ” 改 成 了 “ 字 节 序列 类 对 象 ”; “Other mentions of the buffer 
protocol” (http://bugs.python.org/issue22581) 也 是 如 此 。 
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Container 
__contains__ ; 
__getitem_ 


Iterable __contains__ 


一 "er 一 


__reversed__ 
index 
count 














11-1: Sequence 抽象 基 类 和 collections. abc 中 相关 抽象 类 的 UML 类 图 ， 箭 头 由 子 类 指向 超 类 ， 
以 和 斜体 显示 的 是 抽象 方法 


现在 ， 看 看 示例 11-3 中 的 Foo 类 。 它 没有 继承 abc.Sequence， 而 且 只 实现 了 序列 协议 的 一 
个 方法 : _getitem__ (AKH _Len 方法 )。 


示例 11-3 定义 _getitem 方法， 只 实现 序列 协议 的 一 部 分 ， 这 样 足够 访问 元 素 、 友 代 
和 使 用 in 运算 符 了 
>>> class Foo: 


def _ getitem (self, pos): 
return range(0, 30, 10)[pos] 








>>> f = Foo() 

>>> f[1] 

10 

>>> for i in f: print(i) 


0 

10 

20 

>>> 20 in f 
True 

>>> 15 in f 
False 


虽然 没有 iter 方法 , 但 是 Foo 实例 是 可 迭代 的 对 象 ， 因 为 发 现 有 _getitem “方法 时 ， 
Python 会 调用 它 ， 传 入 从 90 开始 的 整数 索引 ， 尝 试 迭 代 对 象 (这 是 一 种 后 备 机 制 )。 尽 管 
没有 实现 _contains_ 方法 ,但 是 Python 足够 智能 ， 能 迭代 Foo 实例 ， 因 此 也 能 使 用 in 
运算 符 : Python 会 做 全 面 检查 ， 看 看 有 没有 指定 的 元 素 。 


综 上 ， 鉴 于 序列 协议 的 重要 性 ， 如 果 没 有 __iter_ 和 __contains__ 方 法，Python 会 调用 

__getitem 方法， 设法 让 返 代 和 in 运算 符 可 用 。 

第 1 章 定 义 的 FrenchDeck 类 也 没有 继承 abc.Sequence， 但 是 实现 了 序列 协议 的 两 个 方法 : 
getitem _ 和 __len 。 如 示例 11-4 所 示 。 
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示例 11-4 ”实现 序列 协议 的 FrenchDeck 类 (代码 与 示例 1-1 相同 ) 


import collections 
Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + List('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def __len__(self): 
return Len(self._cards) 


def _ getitem (self, position): 
return self._cards[position] 


第 1 章 那些 示例 之 所 以 能 用 ， 大 部 分 是 由 于 Python 会 特殊 对 待 看 起 来 像 是 序列 的 对 象 。 
Python 中 的 迭代 是 鸭子 类 型 的 一 种 极端 形式 : 为 了 迭代 对 象 ， 解 释 器 会 尝试 调用 两 个 不 同 
的 方法 。 

下 面 再 分 析 一 个 示例 ， 着 重 强调 协议 的 动态 本 性 。 


11.3 ”使 用 猴子 补丁 在 运行 时 实现 协议 


示例 11-4 中 的 FrenchDeck 类 有 个 重大 缺陷 : 无 法 洗 牌 。 几 年 前 ， 第 一 次 编写 FrenchDeck 
示例 时 ， 我 实现 了 shuffle 方 法 。 后 来 ， 我 对 Python 风格 有 了 深刻 理解 ， 我 发 现 如 
果 FrenchDeck 实例 的 行为 像 序列 ， 那 么 它 就 不 需要 shuffle 方法 ， 因 为 已 经 有 random. 
shuffle 函数 可 用 ， 文 档 中 说 它 的 作用 是 “就 地 打 乱 序列 x” (https://docs.python.org/3/ 


library/random.html#random.shuffle ) 。 


























如 果 遵 守 既 定 协 议 ， 很 有 可 能 增加 利用 现 有 的 标准 库 和 第 三 方 代码 的 可 能 
性 ， 这 得 益 于 鸭子 类 型 。 





标准 库 中 的 random.shuffle 函数 用 法 如 下 : 


>>> from random import shuffle 
>>> l = list(range(10)) 

>>> shuffle(1) 

>>> 1 


[5, 2, 9, 7, 8, 3, 1, 4, 0, 6] 


然而 ， 如 果 尝 试 打 乱 FrenchDeck 实例 ， 会 出 现 异 常 ， 如 示例 11-5 所 示 。 
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示例 11-5 ”random.shuffle eR ACA REF] BL FrenchDeck 实例 

>>> from random import shuffle 
>>> from frenchdeck import FrenchDeck 
>>> deck = FrenchDeck() 
>>> shuffle(deck) 
Traceback (most recent call last): 

File "<stdin>", Line 1, in <module> 

File ".../python3.3/random.py", line 265, in shuffle 

x[i], x[j] = x[j], x[i] 

TypeError: 'FrenchDeck' object does not support item assignment 





错误 消息 相当 明确 ,，“'FrenchDeck' object does not support item assignment” ('FrenchDeck' 
对 象 不 支持 为 元 素 赋值 )。 这 个 问题 的 原因 是 ，shuffte 函数 要 调换 集合 中 元 素 的 位 置 ， 而 
FrenchDeck 只 实现 了 不 可 变 的 序列 协议 。 可 变 的 序列 还 必须 提供 _setitem “方法 。 


Python 是 动态 语言 ， 因 此 我 们 可 以 在 运行 时 修正 这 个 问题 ， 其 至 还 可 以 在 交互 式 控制 台 

中 ， 修 正方 法 如 示例 11-6 所 示 。 

示例 11-6 ”为 FrenchDeck 打 猴 子 补丁 ， 把 它 变 成 可 变 的 ， 让 random.shuffle 函数 能 处 理 
(接续 示例 11-5) 


>>> def set_card(deck, position, card): @ 
deck._cards[position] = card 









































>>> FrenchDeck.__setitem__ = set_card @ 

>>> shuffle(deck) © 

>>> deck[:5] 

[Card(rank='3', suit='hearts'), Card(rank='4', suit='diamonds'), Card(rank='4', 
suit='clubs'), Card(rank='7', suit='hearts'), Card(rank='9', suit='spades')] 


O 定义 一 个 函数 ， 它 的 参数 为 deck、position 和 card, 
© 把 那个 函数 赋值 给 FrenchDeck 类 的 __setitem_ 属性 。 
现在 可 以 打 乱 deck 了 ， 因 为 FrenchDeck 实现 了 可 变 序 列 协议 所 需 的 方法 。 


特殊 方法 __setitem_ 的 签名 在 Python 语言 参考 手册 的 “3.3.6. Emulating container types” 
(https://docs.python.org/3/reference/datamodel.html#emulating-container-types) 中 定义 。 语 言 
参考 中 使 用 的 参数 是 self、key 和 value， 而 这 里 使 用 的 是 deck, position 和 card, XA 
做 是 为 了 告诉 你 ， 每 个 Python 方法 说 到 底 都 是 普通 函数 ， 把 第 一 个 参数 命名 为 self 只 是 
一 种 约定 。 在 控制 台 会 话 中 使 用 那儿 个 参数 没 问 题 ， 不 过 在 Python 源码 文件 中 最 好 按照 文 
档 那 样 使 用 self, key 和 value, 


这 里 的 关键 是 ，set_card 函数 要 知道 deck 对 象 有 一 个 名 为 cards 的 属性 ， 而 且 cards 的 
值 必须 是 可 变 序 列 。 然 后 ， 我 们 把 set_card 函数 赋值 给 特殊 方法 __setitem_， 从 而 把 它 
依附 到 FrenchDeck 类 上 。 这 种 技术 叫 猴 子 补丁 : 在 运行 时 修改 类 或 模块 ， 而 不 改动 源码 。 
猴子 补丁 很 强大 ， 但 是 打 补丁 的 代码 与 要 打 补 丁 的 程序 耦合 十 分 紧密 ， 而 且 往往 要 处 理 隐 
藏 和 没有 文档 的 部 分 。 

除了 举例 说 明 猴 子 补丁 之 外 ， 示 例 11-6 还 强调 了 协议 是 动态 的 : random. shuffle 函数 不 关 
心 参数 的 类 型 ， 只 要 那个 对 象 实现 了 部 分 可 变 序列 协议 即 可 。 即 便 对 象 一 开始 没有 所 需 的 
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方法 也 没关系 ， 后 来 再 提供 也 行 。 
目前 ， 本 章 讨论 的 主题 是 “鸭子 类 型 ”: 对 象 的 类 型 无 关 紧 要 ， 只 要 实现 了 特定 的 协议 即 可 。 


前 面 给 出 的 抽象 基 类 图 表 是 为 了 展示 协议 与 抽象 基 类 的 文档 中 所 说 的 接口 之 间 的 关系 ， 但 
是 目前 为 止 还 没有 真正 继承 抽象 基 类 。 


在 接 下 来 的 几 节 中 ， 我 们 将 直接 使 用 抽象 基 类 ， 而 不 只 将 其 当 作文 档 。 


11.4 Alex Martellifyzk È 


介绍 完 Python 常规 的 协议 风格 接口 后 ， 下 面 讨论 抽象 基 类 。 不 过 在 分 析 示 例 和 细 市 之 前 ， 
我 们 要 看 Alex Martelli 写 的 一 篇 短文 。 这 篇 短文 说 明了 Python 为 什么 引入 抽象 基 类 。 








非常 感谢 Alex Martelli。 本 书 引 用 最 多 的 就 是 他 说 的 话 ， 后 来 他 变 成 了 本 
书 的 技术 编辑 之 一 。 他 的 见解 已 经 非常 宝贵 了 ， 现 在 又 愿意 撰写 这 篇 短文 。 
Python 社区 有 他 的 存在 真是 幸运 。 接 下 来 交 给 你 了 ，Alex | 























水 禽 和 抽象 基 类 
Alex Martelli # 


维基 百科 (http://en.wikipedia.org/wiki/Duck_typing#History) 说 是 我 协助 传播 了 “鸭子 
ŽA” AAE AERE 〈 即 忽略 对 象 的 真正 类 型 ， 转 而 关注 对 象 有 没有 实现 所 需 
的 方法 、 签 名 和 语义 )。 


对 Python 来 说 ， 这 基本 上 是 指 避 免 使 用 isinstance 检查 对 象 的 类 型 (更 别提 
type(foo) is bar 这 种 更 糟 的 检查 方式 了 ， 这 样 做 没有 任何 好 处 ， 其 至 禁止 最 简单 的 
继承 方式 ) 。 

总 的 来 说 ， 鸭 子 类 型 在 很 多 情况 下 十 分 有 用 ; 但 是 在 其 他 情况 下 ， 随 着 发 展 ， 通 常 有 
更 好 的 方式 。 事 情 是 这 样 的 …… 


近代 ， 属 和 种 (和 包括 但 不 限于 水 禽 所 属 的 鸭 科 ) 基本 上 是 根据 表 型 系统 学 (phenetics) 
分 类 的 。 表 征 学 关注 的 是 形态 和 举止 的 相似 性 …… 主 要 是 表 型 系统 学 特征 。 因 此 使 用 
“鸭子 类 型 ”比喻 是 贴切 的 。 
然而 ， 平 行进 化 往往 会 导致 不 相关 的 种 产生 相似 的 特征 ， 形 态 和 举止 方面 都 是 如 此 ， 
但 是 生态 位 的 相似 性 是 偶然 的 ， 不 同 的 种 仍 属 不 同 的 生态 位 。 编 程 语言 中 也 有 这 种 
“偶然 的 相似 性 ”， 比 如 说 下 述 经 典 的 面向 对 象 编程 示例 : 

class Artist: 


def draw(self): ... 


class Gunslinger: 
def draw(self): ... 
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class Lottery: 
def draw(self): ... 


显然 ， 只 因为 X 和 y 两 个 对 象 刚 好 都 有 一 个 名 为 draw 的 方法 ， 而 且 调 用 时 不 用 传 入 
参数 ， 即 x.draw() 和 y.draw()， 远 远 不 能 确保 二 者 可 以 相互 调用 ， 或 者 具有 相同 的 抽 
象 。 也 就 是 说 ， 从 这 样 的 调用 中 不 能 推导 出 语义 相似 性 。 相 反 ， 我 们 需要 一 位 渊博 的 
程序 员 主 动 把 这 种 等 价 维持 在 一 定 层次 上 。 


生物 (和 其 他 学 科 ) 遇 到 的 这 个 问题 ， 人 迫切 需要 (从 很 多 方面 来 说 ， 是 众生 ) 表征 学 
之 外 的 分 类 方式 解决 ， 即 支 序 系统 学 (cladistics) 。 这 种 分 类 学 主要 根据 从 共同 祖先 那 
里 继承 的 特征 分 类 ， 而 不 是 单独 进化 的 特征 。( 近 些 年 ，DNA 测序 变 得 便宜 又 快 ， 这 
使 支 序 学 的 实用 地 位 变 得 更 高 。) 


例如 ， | 
WA) 现在 被 分 到 Tadornidae 亚 科 (表明 二 者 的 相似 性 比 鸭 科 中 其 他 动物 高 ， 因 为 它们 
Rae nan, 此 外 ，DNA 分 析 表 明 ， 自 起 木 鸭 与 美洲 家 鸭 (ATRA) 不 
是 很 像 ， 至少 没有 形态 和 举止 看 起 来 那么 像 ， 因 此 把 木 鸭 单独 分 成 了 一 属 ， 完 全 不 在 
Tadornidae 亚 科 中 。 


知道 这 些 有 什么 用 呢 ? 视 情 况 而 定 !| 比如 ， 只 水 禽 后 ， 决 定 如 何 京 制 才 最 美味 
时 ,显著 的 特征 (不 是 全 部 ， Rien ne Fe 主要 是 口感 和 风味 (过 时 的 表 
征 学 ) ， 这 比 支 序 学 重要 得 多 。 但 在 其 他 方面 ， 如 对 不 同 病 原 体 的 抗 性 〈 圈 养 水 例 还 是 
放养 )，DNA 接近 性 的 作用 就 大 多 了 .……: 


此 ， 参 照 水 禽 的 分 类 学 演化 ， 我 建议 在 鸭子 类 型 的 基础 上 增加 自 急 类 型 (goose 
typing). 

HAM, RÆcls WAX, Bp cls 的 元 类 是 abc.ABCMeta， 就 可 以 使 用 
isinstance(obj, cls), 

collections.abc 中 有 很 多 有 用 的 抽象 类 (Python 标准 库 的 numbers 模块 中 还 有 一 些 ) 。” 


与 具体 类 相 比 ， 抽 象 基 类 有 很 多 理论 上 的 优点 (ie, AA Scott Meyer 写 的 《More 
Effective C++: 35 个 改善 编程 与 设计 的 有 效 方法 (中文 版 )》 的 “条 款 33: HARA 
Ki A th HH”, HT Hh A http://ptemedia.pearsoncmg.com/images/020163371x/items/ 
item33.html) , Pyton 的 抽象 基 类 还 有 一 个 重要 的 实用 优势 : 可 以 使 用 register 类 方法 
在 终 痛 用 户 的 代码 中 把 菜 个 类 “声明 ”为 一 个 抽象 基 类 的 “虚拟 ” 子 类 (为 此 ， 被 注 
册 的 类 必须 满足 抽象 基 类 对 方法 名 称 和 签名 的 要 求 ， 最 重要 的 是 要 满足 底层 语义 契约 ; 

















E3: 当然 ， 你 还 可 以 自己 定义 抽象 基 类 ， 但 是 我 不 建议 高 级 Python 程序 员 之 外 的 人 这 么 做 ， 同 样 ， 我 也 











不 建议 你 自己 定义 元 类 …… 我 说 的 “高 级 Python 程序 员 ” 是 指 对 Python 语言 的 一 招 一 式 都 了 如 指 掌 ， 
即便 对 这 类 人 来 说 ， 抽 象 基 类 和 元 类 也 不 是 常用 工具 。 如 此 “深层 次 的 元 编程 ”， 如 果 可 以 这 么 讲 的 



































话 ， 适 合 框 架 的 作者 使 用 ， 这 样 便 于 众多 不 同 的 开发 团队 独立 扩展 框架 …… 真 正 需 要 这 么 做 的 “高 级 























Python 程序 员 ” 不 超过 1%。 Alex Martelli 
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但 是 ， 开 发 那个 类 时 不 用 了 解 机 象 基 类 ， 更 不 用 继承 抽象 基 类 )。 这 大 大 地 打破 了 严格 
的 强 耦 合 ， 与 面向 对 象 编 程 人 员 掌 握 的 知识 有 很 大 出 入 ， 因 此 使 用 继承 时 要 小 心 。 


有 时 ,为 了 让 抽象 基 类 识别 子 类 ， 其 至 不 用 注册 。 
其 实 ， 抽 象 基 类 的 本 质 就 是 几 个 特殊 方法 。 例 如 : 


>>> class Struggle: 
def __len__ (self): return 23 


>>> from collections import abc 
>>> isinstance(Struggle(), abc.Sized) 
True 


可 以 看 出 ， 无 需 注册 ，abc.Sized 也 能 把 Struggle 识别 为 自己 的 子 类 ， 只 要 实现 了 特 
AZ ik len MT (要 使 用 正确 的 向 法 和 语义 实现 ， 前 者 要 求 没有 参数 ， 后 者 要 求 
返回 一 个 非 负 整数 ， 指 明 对 象 的 长 度 ; 如 果 不 使 用 规定 的 向 法 和 语义 实现 特殊 方法 ， 
如 _Len_， 会 导致 非常 严重 的 问题 ) 。 


最 后 我 想 说 的 是 : 如 果实 现 的 类 体现 了 numbers, collections.abc 或 其 他 框架 中 抽象 
基 类 的 概念 ， 要 么 继承 相应 的 抽象 基 类 (必要 时 ) ， 要 么 把 类 注册 到 相应 的 抽象 基 类 
中 。 开 始 开发 程序 时 ， 不 要 使 用 提供 注册 功能 的 库 或 框架 ， 要 自己 动手 注册 ; 如 果 必 
须 检 查 参 数 的 类 型 (这 是 最 常见 的 ) ， 例 如 检查 是 不 是 “序列 ”， 那 就 这 样 做 : 


isinstance(the_arg, collections.abc.Sequence) 


此 外 ， 不 要 在 生产 代码 中 定义 抽象 基 类 (或 元 类 ) ove 如 果 你 很 想 这 样 做 ， 我 打 财 可 
能 是 因为 你 想 “ 找 荐 >"， 刚 拿 到 新 工具 的 人 都 有 大 干 一 场 的 冲动 。 如 果 你 能 避 开 这 些 深 
奥 的 概念 ， 你 (以 及 未 来 的 代码 维护 者 ) 的 生活 将 更 愉快 ， 因 为 代码 会 变 得 简洁 明了 。 
再 会 ! 








BS HEH “ARKE” ob, Alex 还 指出 ， 继 承 抽 象 基 类 很 简单 ， 只 需要 实现 所 需 的 方 
法 ， 这 样 也 能 明确 表明 开发 者 的 意图 。 这 一 意图 还 能 通过 注册 虚拟 子 类 来 实现 。 

此 外 ， 使 用 isinstance 和 iLssubclass 测试 抽象 基 类 更 为 人 接受 。 过 去 ， 这 两 个 函数 用 来 
测试 鸭子 类 型 ， 但 用 于 抽象 基 类 会 更 灵活 。 毕 竟 ， 如 果 某 个 组 件 疫 有 继承 抽象 基 类 ， 事 后 
还 可 以 注册 ， 让 显 式 类 型 检查 通过 。 

然而 ， 即 便 是 抽象 基 类 ， 也 不 能 滥用 isinstance 检查 ， 用 得 多 了 可 能 导致 代码 异味 ， 即 表 
明 面 向 对 象 设 计 得 不 好 。 在 一 连 串 if/elif/elif 中 使 用 isinstance 做 检查 ， 然 后 根据 对 
象 的 类 型 执行 不 同 的 操作 ， 通 常 是 不 好 的 做 法 ， 此 时 应 该 使 用 多 态 ， 即 采用 一 定 的 方式 定 
义 类 ， 让 解释 器 把 调用 分 派 给 正确 的 方法 ， 而 不 使 用 if/elif/elif 块 硬 编码 分 派 逻 辑 。 
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具体 使 用 时 ， 上 述 建 议 有 一 个 常见 的 例外 : 有 些 Python API 接受 一 个 字符 
串 或 字符 串 序 列 ， 如 果 只 有 一 个 字符 串 ， 可 以 把 它 放 到 列表 中 ， 从 而 简化 处 
理 。 因 为 字符 串 是 序列 类 型 ， 所 以 为 了 把 它 和 其 他 不 可 变 序 列 区 分 开 ， 最 简 
单 的 方式 是 使 用 isinstance(x, str) 检查 。” 


















































另 一 方面 ， 如 果 必 须 强制 执行 API 契约 ， 通 常 可 以 使 用 isinstance 检查 抽象 基 类 。 老兄 ， 
如 果 你 想 调用 我 ， 必 须 实现 这 个 ”"， 正 如 本 书 技术 审 校 Lennart Regebro 所 说 的 。 这 对 采用 插 
入 式 架 构 的 系统 来 说 特别 有 用 。 在 框架 之 外 ， 有 鸭子 类 型 通常 比 类 型 检查 更 简单 ， 也 更 灵活 。 


例如 ， 本 书 有 几 个 示例 要 使 用 序列 ， 把 它 当 成 列表 处 理 。 我 没有 检查 参数 的 类 型 是 不 是 
Litst， 而 是 直接 接受 参数 ， 立 即使 用 它 构建 一 个 列表 。 这 样 ， 我 就 可 以 接受 任何 可 迭代 对 
象 ， 如 果 参 数 不 是 可 返 代 对 象 ， 调 用 立即 失败 ， 并 且 提 供 非常 清晰 的 错误 消息 。 本 章 后 面 示 
例 11-13 中 的 代码 就 是 这 么 做 的 。 当 然 ， 如 果 序 列 大 长 或 者 需要 就 地 修改 序列 而 导致 无 法 复 
制 参 数 ， 就 不 能 采用 这 种 方式 ， 此 时 ， 使 用 isinstance(x，abc.MutabLeSequence) 更 好 。 如 
果 可 以 接受 任何 可 迭代 对 象 ， 也 可 以 调用 iter(x) 国 数 获得 一 个 迭代 器 ， 详 情 参见 14.1.1 节 。 


模仿 collections.namedtuple (https://docs.python.org/3/library/collections.html#collections.namedtuple) 
处 理 field_names 参数 的 方式 也 是 一 例 : field_names 的 值 可 以 是 单个 字符 串 ， 以 空格 或 喜 
号 分 隔 标 识 符 ， 也 可 以 是 一 个 标识 符 序列 。 此 时 可 能 想 使 用 isinstance， 但 我 会 使 用 鸭子 
类 型 ， 如 示例 11-7 所 示 。” 


示例 11-7 ”使 用 鸭子 类 型 处 理 单个 字符 串 或 由 字符 串 组 成 的 可 迭代 对 象 


try: @ 
field_names = field_names.replace(',', ' ').split() @ 
except AttributeError: © 


pass @ 
field_names = tuple(field_names) © 
O 假设 是 单个 字符 串 (EAFP 风格 ， 即 “取得 原谅 比 获 得 许可 容易 ”)。 
O 把 逗号 替换 成 空格 ， 然 后 拆 分 成 名 称 列表 。 
© A Field_names 看 起 来 不 像 是 字符 串 …… 没 有 .replace 方法， 或 者 返回 值 不 能 使 
split 方法 拆 分 
汉 是 由 名 称 组 成 的 可 迭代 对 象 了 。 
O 为 了 确保 的 确 是 可 和 迭代 对 象 ， 也 为 了 保存 一 份 副 本 ， 使 用 所 得 值 创建 一 个 元 组 。 
在 那 篇 短文 的 最 后 ，Alex 多 次 强调 ， 要 抑制 住 创建 抽象 基 类 的 冲动 。 滥 用 抽象 基 类 会 造成 
灾难 性 后 果 ， 表 明 语 言 太 注重 表面 形式 ， 这 对 以 实用 和 务实 著称 的 可 不 是 好 事 。 在 
审阅 本 书 的 过 程 中 ，Alex 写 道 : 













































































注 4: 可 惜 ， 在 Python 3.4 中 没有 能 把 字符 串 和 元 组 或 其 他 不 可 变 序 列 区 分 开 的 抽象 基 类 ， 因 此 必须 测试 str。 
在 Python 2 中 ,basestr 类 型 可 以 协助 这 样 的 测试 。basestr 不 是 抽象 基 类 ,但 它 是 str FH unicode 的 超 类 ， 
然而 ，Python 3 把 basestr HAT. AERE, Python 3 中 有 个 collections.abc.ByteString 类 型 ， 但 是 
它 只 能 检测 bytes 和 bytearray 类 型 。 

TES: 这 段 代码 摘自 示例 21-2. 
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抽象 基 类 是 用 于 封装 框架 引入 的 一 般 性 概念 和 抽象 的 ， 例 如 “一 个 序列 ”和 “一 个 
确切 的 数 "。( 读 者 ) 基本 上 不 需要 自己 编写 新 的 抽象 基 类 ， 只 要 正确 使 用 现 有 的 抽 
象 基 类 ， 就 能 获得 99.9% 的 好 处 ， 而 不 用 冒 着 设计 不 当 导 致 的 巨大 风险 。 





下 面 通过 实例 讲解 白 息 类 型 。 











11.5 定义 抽象 基 类 的 子 类 


我 们 将 遵循 Martelli 的 建议 ， 先 利用 现 有 的 抽象 基 类 (collections.MutableSequence)， 
然后 再 斗 胆 自己 定义 。 在 示例 11-8 中 ， 我 们 明确 把 FrenchDeck2 声明 为 collections. 





MutableSequence 的 子 类 。 


示例 11-8 frenchdeck2.py: FrenchDeck2, collections.MutableSequence 的 子 类 


import collections 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck2(collections.MutableSequence): 
ranks = [str(n) for n in range(2, 11)] + List('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 


self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def __len__(self): 
return Len(self._cards) 


def _ getitem (self, position): 
return self._cards[position] 


def _ setitem (self, position, value): 


self._cards[position] = value 


def _delitem (self, position): #@ 


del self._cards[position] 


def insert(self, position, value): # © 


self._cards.insert(position, value) 


O 为 了 文 持 洗 牌 ， 只 需 实现 _setitemn Hik. 


#0 


@ 但 是 继承 MutableSequence 的 类 必须 实现 _deLitem “方法 ， 这 是 MutableSequence 类 的 


一 个 抽象 方法 。 


© 此 外 ， 还 要 实现 insert 方法 ， 这 是 MutableSequence 类 的 第 三 个 抽象 方法 。 


导入 时 (加 载 并 编译 frenchdeck2.py 模块 时 ) Python 不 会 检查 抽象 方法 的 实现 ， 在 运行 时 
实例 化 FrenchDeck2 类 时 才 会 真正 检查 。 因 此 ， 如 果 没 有 正确 实现 某 个 抽象 方法 ，Python 会 
抛 出 TypeError 异常 ， 并 把 错误 消息 设 为 "Can't instantiate abstract class FrenchDeck2 
with abstract methods _ delitem _，insert"。 正 是 这 个 原因 ， 即 便 FrenchDeck2 类 不 需要 











__delitem _ FH insert 提供 的 行为 ， 也 要 实现 ， 








A 








为 MutableSequence 抽象 基 类 需要 它们 。 
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如 图 11-2 所 示 ，Sequence 和 Mutabtesequence 抽象 基 类 的 方法 不 全 是 抽象 的 。 


MutableSequence 
setitem 
__delitem__ 


insert 





__getitem__ 


lterable —contains _ append 


__iter__ 
__reversed__ 
index 

count 


reverse 
extend 
pop 
remove 
__iadd__ 














11-2; MutableSequence 抽象 基 类 和 collections.abc 中 它 的 超 类 的 UML 类 图 (箭头 由 子 类 指 
向 祖先 ， 以 和 斜体 显示 的 名 称 是 抽象 类 和 抽象 方法 ) 


FrenchDeck2 从 Sequence 继承 了 几 个 拿 来 即 用 的 具体 方法 : _contains 、_ iter_、 
__reversed__, index 和 count, FrenchDeck2 从 MutableSequence 继承 了 append, extend, 
pop, remove 和 _iadd_, 


在 collections.abe 中 ， 每 个 抽象 基 类 的 具体 方法 都 是 作为 类 的 公开 接口 实现 的 ， 因 此 不 
用 知道 实例 的 内 部 结构 。 


要 想 实现 子 类 ， 我 们 可 以 覆盖 从 抽象 基 类 中 继承 的 方法 ， 以 更 高 效 的 方式 重 
PHL. Pie, contains _ 方法 会 全 面 扫描 序列 ， 可 是 ， 如 果 你 定义 的 序 
列 按 顺 序 保存 元 素 ， 那 就 可 以 重新 定义 contains 方法， 使 用 bisect pA 
数 做 二 分 查找 (参见 2.8 节 )， 从 而 提升 搜索 速度 。 























为 了 充分 使 用 抽象 基 类 ， 我 们 要 知道 有 哪些 抽象 基 类 可 用 。 接 下 来 介绍 集合 抽象 基 类 。 


11.6 标准 库 中 的 抽象 基 类 


从 Python 2.6 开始 ， 标 准 库 提供 了 抽象 基 类 。 大 多 数 抽象 基 类 在 collections. abc 模块 中 定 
义 ,不 过 其 他 地 方 也 有 。 例 如 ，numbers 和 io 包 中 有 一 些 抽象 基 类 。 但 是 ，collections. 
abc 中 的 抽象 基 类 最 常用 。 我 们 来 看 看 这 个 模块 中 有 哪些 抽象 基 类 。 


11.6.1 collections.abc 模 块 中 的 抽象 基 类 


标准 库 中 有 两 个 名 为 abc 的 模块 ， 这 里 说 的 是 coLLections.abc。 为 了 减少 加 
载 时 间 ，Python 3.4 在 collections 包 之 外 实现 这 个 模块 (在 Lib/_collections_ 
abc.py 中 ，https://hg.python.org/cpython/file/3.4/Lib/_collections_abc.py)， 此 要 
t collections 分 开导 入 。 另 一 个 abc 模块 就 是 abc (BH Lib/abc.py，https:// 
hg.python.org/cpython/file/3.4/Lib/abc.py)， 这 里 定义 的 是 abc.ABC 类 。 每 个 抽象 
基 类 都 依赖 这 个 类 ， 但 是 不 用 导入 它 ， 除 非 定义 新 抽象 基 类 。 
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Python 3.4 在 collections. abc 模块 中 定义 了 16 个 抽象 基 类 ， 简 要 的 UML 类 图 (没有 属 
性 名 称 ) 如 图 11-3 所 示 。collections.abc 的 官方 文档 中 有 个 不 错 的 表格 (https://docs. 
python.org/ 3/library/collections.abc.html#collections-abstract-base-classes) ， 对 各 个 抽象 基 类 
做 了 总 结 ， 说 明了 相互 之 间 的 关系 ， 以 及 各 个 基 类 提供 的 抽象 方法 和 具体 方法 ( 称 为 “ 混 
入 方法 ”)。 图 11-3 中 有 很 多 多 重 继承 。 我 们 将 在 第 12 章 着 重 说 明 多 重 继承 ， 讨 论 抽 象 基 
类 时 通常 不 用 考虑 多 重 继承 。 © 
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11-3: collections. abc 模块 中 各 个 抽象 基 类 的 UML 类 图 








下 面 详 述 图 11-3 中 那 一 群 基 类 。 

Iterable, Container 和 Sized 
各 个 集合 应 该 继承 这 三 个 抽象 基 类 ， 或 者 至 少 实现 兼容 的 协议 。IterabtLe 通过 _iter__ 
方法 支持 迭代 ，Container 通过 __contains_ 方法 支持 in 运算 符 ，Sized 通过 len 
方法 支持 Len() 函数 。 

Sequence, Mapping 和 Set 
这 三 个 是 主要 的 不 可 变 集 合 类 型 ， 而 且 各 自 都 有 可 变 的 子 类 。MutableSequence 的 详细 
类 图 见 图 11-2，MutableMapping 和 MutableSet 的 类 图 在 第 3 章 中 ( 见 图 3-1 和 图 3-2)。 

MappingView 

在 Python 3 中 ， 映 射 方 法 .items()、.keys() 和 .values() 返回 的 对 象 分 别 是 ItemsView, 


KeysView 和 ValuesView 的 实例 。 前 两 个 类 还 从 Set 类 继承 了 丰富 的 接口 ， 包 含 3.8.3 节 
所 述 的 全 部 运算 符 。 










































































注 6: Java 认为 多 重 继承 有 危害 ， 因 此 设 有 提供 支持 ， 但 是 提供 了 接口 ， Java 的 接口 可 以 扩展 多 个 接口 ， 而 
且 Java 的 类 可 以 实现 多 个 接口 。 








Callable 和 Hashable 


这 两 个 抽象 基 类 与 集合 没有 太 大 的 关系 ， 只 不 过 因为 collections.abc 是 标准 库 中 定义 
抽象 基 类 的 第 一 个 模块 ， 而 它们 又 太 重 要 了 ， 因 此 才 把 它们 放 到 collections. abc 模块 
中 。 我 从 未 见 过 Callable 或 Hashable 的 子 类 。 这 两 个 抽象 基 类 的 主要 作用 是 为 内 置 国 
Bl isinstance 提供 支持 ， 以 一 种 安全 的 方式 判断 对 象 能 不 能 调用 或 散 列 。 


Iterator 
注意 它 是 Iterable 的 子 类 。 我 们 将 在 第 14 章 详细 讨论 。 
继 collections.abe 之 后 ， 标 准 库 中 最 有 用 的 抽象 基 类 包 是 numbers。 下 面 就 来 介绍 。 


11.6.2 ”抽象 基 类 的 数字 塔 

numbers J, (https://docs.python.org/3/library/numbers.html) 定义 的 是 “数字 塔 ”( 即 各 个 抽 
象 基 类 的 层次 结构 是 线性 的 )， 其 中 Number 是 位 于 最 顶端 的 超 类 ， 随 后 是 Complex 子 类 ， 
依次 入 下， 最 底 端 是 Integral 类 : 


























e Number 

e Complex 
。 Real 

e Rational 
e Integral 


因此 ， 如 果 想 检查 一 个 数 是 不 是 整数 ， 可 以 使 用 isinstance(x, numbers.Integral), ix? 
代码 就 能 接受 int, bool (int FX), 或 者 外 部 库 使 用 numbers 抽象 基 类 注册 的 其 他 类 
型 。 为 了 满足 检查 的 需要 ， 你 或 者 你 的 API 的 用 户 始 终 可 以 把 兼容 的 类 型 注册 为 numbers. 
Integral 的 虚拟 子 类 。 

与 之 类 似 ， 如 果 一 个 值 可 能 是 浮 点 数 类 型 ， 可 以 使 用 isinstance(x，numbers.Real) 检查 。 
这 样 代码 就 能 接受 bool, int, float, fractions.Fraction, 或 者 外 部 库 (如 NumPy， 它 
做 了 相应 的 注册 ) 提供 的 非 复 数 类 型 。 


decimal.Decimal 没有 注册 为 numbers.Real 的 虚拟 子 类 ， 这 有 点 奇怪 。 没 注 
册 的 原因 是 ， 如 果 你 的 程序 需要 Decimal 的 精度 ， 要 防止 与 其 他 低 精 度数 字 
类 型 混淆 ， 尤 其 是 浮 点 数 。 



































了 解 一 些 现 有 的 抽象 基 类 之 后 ， 我 们 将 从 零 开 始 实现 一 个 抽象 基 类 ， 然 后 实际 使 用 ， 以 此 
实践 白 鹅 类型。 这 么 做 的 目的 不 是 鼓励 每 个 人 都 立即 开始 定义 抽象 基 类 ， 而 是 教 你 怎么 阅 
读 标 准 库 和 其 他 包 中 的 抽象 基 类 源码 。 




















想 检 查 是 否 能 调用 ， 可 以 使 用 内 置 的 callable() 函数 ， 但 是 没有 类 似 的 hashable() 函数 ， 因 此 测 
对 和 象 是 否 可 散 列 ， 最 好 使 用 isinstance(my_obj, Hashable)。 
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11.7 定义 并 使 用 一 


由 象 基 类 ， 我 们 要 在 框架 中 找到 使 用 它 的 场景 。 想 象 一 下 这 个 场景 : 





为 了 证 明 有 必要 定义 








个 抽象 基 类 





你 要 在 网 站 或 移动 应 用 中 显示 随机 广告 ， 但 是 在 整个 广告 清单 轮转 一 过 之 前 ， 不 重复 显示 





广告 。 假 设 我 们 在 构建 一 个 广告 管理 








框架 ， 名 为 ADAM。 “EF 


的 职责 之 一 是 ， 支 持 用 户 提供 随 


机 挑选 的 无 重复 类 。 为 了 让 ADAM 的 用 户 明 确 理解 “随机 挑选 的 无 重复 ”组 件 是 什么 意思 ， 


我 们 将 定义 一 个 抽象 基 类 。 





受到 “ 栈 ” 和 “队列 ”( 以 物体 的 排放 方式 说 明 抽 象 接口 ) 启发 ， 我 将 使 用 现实 世界 中 的 
物品 命名 这 个 抽象 基 类 : 宾 果 机 和 彩票 机 是 随机 从 有 限 的 集合 中 挑选 物品 的 机 器 ， 选 出 的 


物品 没有 重复 ， 直 到 选 完 为 止 。 

















我 们 把 这 个 抽象 基 类 命名 为 TomboLa， 这 是 宾 果 机 和 打 乱 数字 的 滚动 容器 的 意大利 名 。 
Tombola 抽象 基 类 有 四 个 方法 ， 甚 中 两 个 是 抽象 方法 。 

















-load(...): 把 元 素 放 入 容器 。 
另外 两 个 是 具体 方法 。 





.inspect(): 返 


部 的 顺序 不 保留 ) o 


.Loaded(): 如 果 容 器 中 至 少 有 一 个 元 素 ， 返 
回 一 个 有 序 元 组 ， 由 容器 中 的 现 有 元 素 构 成 ， 不 会 修改 容器 的 内 容 (内 








回 True。 


11-4 展示 了 Tombola 抽象 基 类 和 三 个 具体 实现 。 


int 
load 
pick 
cal _ 








load 
pick 
loaded 
inspect 








、 
~ 


.Pick(): 从 容器 中 随机 拿 出 一 个 元 素 ， 返 回 选中 的 元 素 。 


«registered» 
N 


w 
‘N 





«virtual subclass» 
TomboList 






oad 


pick 







oaded 
nspect 


11-4: 一 个 抽象 基 类 和 三 个 子 类 的 UML 类 图 。 根 据 UML 的 约定 ，Tombola 抽象 基 类 和 它 的 抽象 
方法 使 用 斜体, 虚线 箭头 用 于 表示 接口 实现 ,这 里 它 表 示 TomboList 是 Tombola 的 虚拟 子 类 ， 


因为 TomboList 是 注册 的 ， 本 章 后 面 会 说 明 这 一 点 ” 








户 可 能 要 审查 随机 发 生 器 ， 或 者 代理 想 作 整 


注 8: 客 
注 9: 牛津 英语 词 





谁 知 道 呢 ! 























LX} tombola 的 定义 是 “ 像 对 号 游戏 (lotto) 那样 的 彩票 lottery)”. 
注 10: «registered» 和 «virtual subclass» 不 是 标准 的 UML 词汇 。 我 们 使 














| 二 者 表示 Python 类 之 间 的 关系 。 
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Tombola 抽象 基 类 的 定义 如 示例 11-9 所 示 。 
示例 11-9 tombola.py: Tombola 是 抽象 基 类 ， 有 两 个 抽象 方法 和 两 个 具体 方法 


import abc 
class Tombola(abc.ABC): @ 
@abc. abstractmethod 


def load(self, iterable): @ 
nT ARE Be IMT" 





@abc. abstractmethod 
def pick(self): © 
""" 随 机 删除 元 素 , 然 后 将 其 返回 。 




















如 果实 例 为 空 ,这 个 方法 应 该 抛 出 `LookupError ` 。 


def loaded(self): @ 
""" 如 果 至 少 有 一 个 元 素 ,返回 "True ` ,否则 返回 "FaLse 。""" 
return bool(self.inspect()) © 

















def inspect(self): 
""" 返 回 一 个 有 序 元 组 ,由 当前 元 素 构成 。 "" 
items = [] 
while True: © 
try: 
items.append(self.pick()) 
except LookupError: 
break 
self.load(items) @ 
return tuple(sorted(items) ) 


O 自己 定义 的 抽象 基 类 要 继承 abc. ABC, 

O 抽象 方法 使 用 @abstractmethod 装饰 器 标记 ， 而 且 定义 体 中 通常 只 有 文档 字符 串 。" 

O 根据 文档 字符 串 ， 如 果 没 有 元 素 可 选 ， 应 该 抛 出 LookupError。 

O 抽象 基 类 可 以 包含 具体 方法 。 

O 抽象 基 类 中 的 具体 方法 只 能 依赖 抽象 基 类 定义 的 接口 〈 即 只 能 使 用 抽象 基 类 中 的 其 他 有 具 
体 方 法 、 抽 象 方法 或 特性 ) 。 

O 我 们 不 知道 具体 子 类 如 何 存储 元 素 ， 不 过 为 了 得 到 inspect 的 结果 ， 我 们 可 以 不 断 调 
用 .pick() 方法 ， 把 Tombola 清空 …… 

Ou 然后 再 使 用 .Load(...) 把 所 有 元 素 放 回 去 。 


其 实 ， 抽 象 方法 可 以 有 实现 代码 。 即 便 实现 了 ， 子 类 也 必须 覆盖 抽象 方法 ， 
晶 是 在 子 类 中 可 以 使 用 super() 函数 调用 抽象 方法 ， 为 它 添加 功能 ， 而 不 是 
从 头 开始 实现 。@abstractmethod 装饰 器 的 用 法 参见 abe 模块 的 文档 (https:// 
docs.python.org/3/library/abc.html) 。 





















































注 11: 在 抽象 基 类 出 现 之 前 ， 抽 象 方法 使 用 raise NotImplementedError 语句 表明 由 子 类 负责 实现 。 
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示例 11-9 中 的 .inspect() 方法 实现 的 方式 有 些 笨拙 ， 不 过 却 表 明 ， 有 了 .pick() 和 .Load(…) 
方法 ， 若 想 查 看 Tombola 中 的 内 容 ， 可 以 先 把 所 有 元 素 挑 出 ， 然 后 再 放 回 去 。 这 个 示例 的 目 
的 是 强调 抽象 基 类 可 以 提供 具体 方法 ， 只 要 依赖 接口 中 的 其 他 方法 就 行 。Tombola 的 具体 子 类 
知晓 内 部 数据 结构 ， 可 以 覆盖 .inspect() 方法 ， 使 用 更 聪明 的 方式 实现 ， 但 这 不 是 强制 要 求 。 


示例 11-9 中 的 .loaded() 方法 没有 那么 笨拙 ， 但 是 耗 时 : 调用 .inspect() 方法 构建 有 序 元 
组 的 目的 仅仅 是 在 其 上 调用 bool() 函数 。 这 样 做 是 可 以 的 ， 但 是 具体 子 类 可 以 做 得 更 好 ， 
后 文 见 分 晓 。 


注意 ， 实 现 .inspect() 方法 采用 的 迁 回 方式 要 求 捕获 self.pick() 抛 出 的 LookupError。 
self .pick() 抛 出 LookupError 这 一 事实 也 是 接口 的 一 部 分 ， 但 是 在 Python 中 没 办 法 声明 ， 
只 能 在 文档 中 说 明 (参见 示例 11-9 中 抽象 方法 pick 的 文档 字符 串 ) 。 


我 选择 使 用 LookupError 异常 的 原因 是 ， 在 Python 的 异常 层次 关系 中 ， 它 与 IndexError 和 
KeyError 有 关 ， 这 两 个 是 具体 实现 Tombola 所 用 的 数据 结构 最 有 可 能 抛 出 的 异常 。 据 此 ， 
实现 代码 可 能 会 抛 出 LookupError, IndexError 或 KeyError 异常 。 异 常 的 部 分 层次 结构 如 
示例 11-10 所 示 (完整 的 层次 结构 参见 Python 标准 库 文档 中 的 “5.4. Exception hierarchy” 
pei) 


示例 11-10 异常 类 的 部 分 层次 结构 
BaseException 
| 一 SystemExit 
| 一 KeyboardInterrupt 
| 一 GeneratorExit 
[一 Exception 
— StopIteration 
FF 一 ArithmeticError 
— FloatingPointError 
| 一 OverflowError 
[一 ZeroDivisionError 
| 一 AssertionError 
| 一 AttributeError 
— BufferError 
| 一 EOFError 
t— ImportError 
}— LookupError @ 
| 一 IndexError @ 
[一 KeyError © 
t— MemoryError 
. etc. 


O 我 们 在 Tombola.inspect 方法 中 处 理 的 是 LookupError 异常 。 
@ IndexError 是 LookupError 的 子 类 ， 尝 试 从 序列 中 获取 索引 超过 最 后 位 置 的 元 素 时 抛 出 。 
O 使 用 不 存在 的 键 从 映射 中 获取 元 素 时 ， 抛 出 KeyError 异常 。 


我 们 自己 定义 的 Tombola 抽象 基 类 完成 了 。 为 了 一 睹 抽象 基 类 对 接口 所 做 的 检查 ， 下 面 我 
们 尝试 使 用 一 个 有 缺陷 的 实现 来 糊弄 Tombota， 如 示例 11-11 所 示 。 



































a 
































注 12: 见 https://docs.python.org/dev/library/exceptions.html#exception-hierarchy。 一 一 编者 注 
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示例 11-11 不 符合 Tombola 要 求 的 子 类 无 法 蒙混 过 关 

>>> from tombola import Tombola 
>>> Class Fake(Tombola): # @ 

def pick(self): 

return 13 

>>> Fake # @ 
<class '__main__.Fake'> 
>>> f = Fake() # © 
Traceback (most recent call last): 


File "<stdin>", Line 1, in <module> 
TypeError: Can't instantiate abstract class Fake with abstract methods load 


@ 把 Fake 声明 为 Tombola 的 子 类 。 

O 创建 了 Fake 类 ， 目 前 没有 错误 。 
尝试 实例 化 Fake 时 抛 出 了 TypeError。 错 误 消 息 十 分 明确 : Python 认为 Fake 是 抽象 类 ， 
因为 它 没 有 实现 load 方法 ， 这 是 Tombola 抽象 基 类 声明 的 抽象 方法 之 一 。 


我 们 的 第 一 个 抽象 基 类 定义 好 了 ， 而 且 还 用 它 实际 验证 了 一 个 类 。 稍 后 我 们 将 定义 
Tombola 抽象 基 类 的 子 类 ， 在 此 之 前 必须 说 明 抽 象 基 类 的 一 些 编程 规则 。 


11.7.1 抽象 基 类 句法 详解 
声明 抽象 基 类 最 简单 的 方式 是 继承 abc.ABC 或 其 他 抽象 基 类 。 


然而 ，abc.ABC 是 Python 3.4 新 增 的 类 ， 因 此 如 果 你 使 用 的 是 旧版 Python， 并 且 继 承 现 
有 的 抽象 基 类 也 不 可 取 时 ， 必 须 在 class 语句 中 使 用 metaclass= 关键 字 ， 把 值 设 为 abc. 
ABCMeta (不 是 abc.ABC)。 在 示例 11-9 中 ， 可 以 写成 ， 


class Tombola(metaclass=abc.ABCMeta): 
# ... 


metaclass= 关键 字 参 数 是 Python 3 引入 的 。 在 Python 2 中 必须 使 用 __metaclass__ 类 属性 : 


class Tombola(object): # 这 是 Python 2! | | 
__metaclass__ = abc.ABCMeta 
# a.. 


元 类 将 在 第 21 章 讲解 。 现 在 ， 我 们 暂且 把 元 类 理解 为 一 种 特殊 的 类 ， 同 样 也 把 抽象 基 类 
理解 为 一 种 特殊 的 类 。 例 如 ,“ 常 规 的 ”类 不 会 检查 子 类 ， 因 此 这 是 抽象 基 类 的 特殊 行为 。 
除了 @abstractmethod 之 外 ，abc 模块 还 定义 了 abstractcLassmethod、@abstractstaticmethod 
和 @abstractproperty 三 个 装饰 器 。 然 而 ， 后 三 个 装饰 器 从 Python 3.3 起 废弃 了 ， 因 为 装饰 器 
可 以 在 @abstractmethod 上 堆 倒 ， 那 三 个 就 显得 多 余 了。 例如 ， 声 明 抽 人 象 类 方法 的 推荐 方 
式 是 : 
class MyABC(abc.ABC): 
@classmethod 
@abc. abstractmethod 


def an_abstract_classmethod(cls, ...): 
pass 
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在 函数 上 堆 又 装饰 器 的 顺序 通常 很 重要 ，@abstractmethod 的 文档 就 特别 指出 : 
与 其 他 方法 描述 符 一 起 使 用 时 ，abstractmethod() 应 该 放 在 最 里 














也 就 是 说 ， 在 @abstractmethod 和 def 语句 之 间 不 能 有 其 他 装饰 器 。 











说 明 抽 象 基 类 的 句法 之 后 ， 我 们 要 通过 实现 几 个 功能 完善 的 具体 子 代 来 使 用 Tombola, 


11.7.2 EX Tombola jhk EŽTT% 
定义 好 Tombola 抽象 基 类 之 后 ， 我 们 要 开发 两 个 具体 子 类 ， 满 足 Tombola 规定 的 接口 。 这 
两 个 子 类 的 类 图 如 图 11-4 所 示 ， 图 中 还 有 将 在 下 一 市 讨论 的 虚拟 子 类 。 


示例 11-12 中 的 BingoCage 类 是 在 示例 5-8 的 基础 上 修改 的 ， 使 用 了 更 好 的 随机 发 生 器 。 
BingoCage 实现 了 所 需 的 抽象 方法 load 和 pick， 从 Tombola 中 继承 了 loaded Fyk, ie 
inspect 方法 ， 还 增加 了 __call_ FE. 


示例 11-12 bingo.py; BingoCage 是 Tombola 的 具体 子 类 
import random 





























from tombola import Tombola 


class BingoCage(Tombola): @ 


def __ init__(self, items): 
self._randomizer = random.SystemRandom() @ 
self._items = [] 
self.load(items) © 


de 


= 


load(self, items): 
self._items.extend(items) 
self._randomizer.shuffle(self._items) @ 


def pick(self): @ 
try: 
return self._items.pop() 
except IndexError: 
raise LookupError('pick from empty BingoCage' ) 


def _call_(self): @ 
self.pick() 


O 明确 指定 BingoCage 类 扩展 Tombola 类 。 

O 假设 我 们 将 在 线 上 游戏 中 使 用 这 个 。random.SystemRandom 使 用 os.urandom(...) PK 
数 实现 randomn API。 根 据 os 模 块 的 文档 (http://docs.python.org/3/library/os.html#os. 
urandom), os.urandon(...) 函数 生成 “适合 用 于 加 密 ” 的 随机 字 节 序列 。 














注 13: 出 自 abc 模块 文档 中 的 abc.abstractmethod 词 条 (https://docs.python.org/dev/library/abc.html#abc. 


abstractmethod) 。 

















© 委托 .Load(.….) 方法 实现 初始 加 载 。 

O 没有 使 用 random.shuffle() 国 数 ， 而 是 使 用 SystemRandom 实例 的 .shuffle() 方法 。 

O pick 方法 的 实现 方式 与 示例 5-8 一 样 。 

O call 也 跟 示 例 5-8 中 的 一 样 。 它 没 必 要 满足 Tombola 接口 ， 添 加 额外 的 方法 没有 问题 。 


BingoCage 从 Tombola 中 继承 了 耗 时 的 Loaded 方法 和 策 拙 的 inspect 方法 。 这 两 个 方法 都 
可 以 覆盖 ， 变 成 示例 11-13 中 速度 更 快 的 一 行 代 码 。 这 里 想 表达 的 观点 是 : 我 们 可 以 偷懒 ， 
直接 从 抽象 基 类 中 继承 不 是 那么 理想 的 具体 方法 。 从 Tombola 中 继承 的 方法 没有 BingoCage 
自己 定义 的 那么 快 ， 不 过 只 要 Tombola 的 子 类 正确 实现 pick 和 load 方法 ， 就 能 提供 正确 
的 结果 。 


示例 11-13 是 Tombola 接口 的 另 一 种 实现 ， 虽 然 与 之 前 不 同 ， 但 完全 有 效 。LotteryBLower 
打 乱 “数字 球 ” 后 没有 取出 最 后 一 个 ， 而 是 取出 一 个 随机 位 置 上 的 球 。 




















示例 11-13 lotto.py: LotteryBlower 是 Tombola 的 具体 子 类 ， 禾 盖 了 继承 的 inspect 和 
loaded 方法 


import random 


from tombola import Tombola 


class LotteryBlower(Tombola): 


def __ init__(self, iterable): 
self._balls = list(iterable) @ 


def load(self, iterable): 
self._balls.extend(iterable) 


def pick(self): 
try: 
position = random.randrange(len(self._balls)) @ 
except ValueError: 
raise LookupError('pick from empty LotteryBlower' ) 
return self._balls.pop(position) © 


de 


= 


loaded(self): @ 
return bool(self._balls) 


def inspect(self): © 
return tuple(sorted(self._balls)) 


O 初始 化 方法 接受 任何 可 迭代 对 象 : 把 参数 构建 成 列表 。 

O 如 果 范 围 为 空 ，random.randrange(...) 国 数 抛 出 vaLueError， 为 了 兼容 Tombola， 我 们 
捕获 它 ， 抛 出 LookupError, 

© 否则 ， 从 self._balls 中 取出 随机 选中 的 元 素 。 

© FE loaded 方法 ， 避 免 调 用 inspect 方法 (示例 11-9 中 的 Tombola. loaded 方法 是 这 么 
做 的 ) 。 我 们 可 以 直接 处 理 self. _balls 而 不 必 构 建 整个 有 序 元 组 ， 从 而 提升 速度 。 

© 使 用 一 行 代 码 覆 盖 inspect 方法 。 
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示例 11-13 中 有 个 习惯 做 法 值得 指出 : Æ init Y, self._balls 保存 的 是 
list(iterable)， 而 不 是 iterable 的 引用 ( 即 没 有 直接 把 iterable 赋值 给 self._balls)。 
前 面 说 过 , “这样 做 使 得 LotteryBlower 更 灵活 ， 因 为 iterable BH wf LAE fil AY k 
代 的 类 型 。 把 元 素 存 入 列表 中 还 确保 能 取出 元 素 。 就 算 iterable 参数 始终 传人 列表 ， 
list(iterable) 会 创建 参数 的 副本 ， 这 依然 是 好 的 做 法 ， 因 为 我 们 要 从 中 删除 元 素 ， 而 客 
户 可 能 不 希望 自己 提供 的 列表 被 修改 。” 


接 下 来 要 讲 白 鹅 类 型 的 重要 动态 特性 了 : 使 用 register 方法 声明 虚拟 子 类 。 


11.7.3 Tombola 的 虚拟 子 类 


白 鹅 类 型 的 一 个 基本 特性 (也 是 值得 用 水 禽 来 命名 的 原因 ) : 即便 不 继承 ， 也 有 办 法 把 一 
个 类 注册 为 抽象 基 类 的 虚拟 子 类 。 这 样 做 时 ， 我 们 保证 注册 的 类 忠实 地 实现 了 抽象 基 类 定 
义 的 接口 ， 而 Python 会 相信 我 们 ， 从 而 不 做 检查 。 如 有 果 我 们 说 谎 了 ， 那 么 常规 的 运行 时 异 
常会 把 我 们 捕获 。 

注册 虚拟 子 类 的 方式 是 在 抽象 基 类 上 调用 register 方法 。 这 么 做 之 后 ， 注 册 的 类 会 变 成 抽 
象 基 类 的 虚拟 子 类 ， 而 且 issubclass 和 isinstance 等 国 数 都 能 识别 ， 但 是 注册 的 类 不 会 
从 抽象 基 类 中 继承 任何 方法 或 属性 。 


虚拟 子 类 不 会 继承 注册 的 抽象 基 类 ， 而 且 任何 时 候 都 不 会 检查 它 是 否 符合 抽 
象 基 类 的 接口 ， 即 便 在 实例 化 时 也 不 会 检查 。 为 了 避免 运行 时 错误 ， 虚 拟 子 
类 要 实现 所 需 的 全 部 方法 。 





















































register 方法 通常 作为 普通 的 函数 调用 (参见 11.9 节 )， 不 过 也 可 以 作为 装饰 器 使 用 。 在 
示例 11-14 中 ， 我 们 使 用 装饰 器 句法 实现 了 TomboList 类 ， 这 是 Tombola 的 一 个 虚拟 子 类 ， 
如 图 11-5 所 示 。 
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11-5: TomboList 的 UML 类 图 ， 它 是 list 的 真实 子 类 和 Tombola 的 虚拟 子 类 





TE 14: 我 在 Martelli 写 的 “水 禽 和 抽象 基 类 ”短文 之 后 以 此 为 例 说 明 鸭 子 类 型 。 
注 15: 8.4.2 市 专门 讨论 了 这 种 防止 混淆 别名 的 问题 。 
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TomboList 能 像 它 宣称 的 那样 使 用 ，doctest 能 证 明 这 一 点 ， 详 情 参 见 11.8 市 。 


示例 11-14 tombolist.py; TomboList 是 Tombola 的 虚拟 子 类 


from random import randrange 


from tombola import Tombola 


@Tombola.register # @ 
class TomboList(list): #@ 


def pick(self): 
if self: # © 


position = randrange(len(self)) 
return self.pop(position) # @ 


else: 


raise LookupError('pop from empty TomboList' ) 


load = list.extend # O 


def loaded(self): 
return bool(self) # O 


def inspect(self): 
return tuple(sorted(self) ) 


# Tombola.register(TomboList) # @ 
@ 把 Tombolist 注册 为 Tombola 的 虚拟 子 类 。 
@ Tombolist 扩展 list, 
© Tombolist 从 list 中 继承 booL 方法 ， 列 表 不 为 空 时 返回 True, 


@ pick 调用 继承 


加 Tombolist. load 与 list.extend 一 样 。 


自 list 的 self.pop 方法 ， 传 人 一 个 随机 的 元 素 索引 。 








@ loaded 方法 委托 bool 函数 。! 














O 如 果 是 Python 
的 调用 句法 。 





3.3 或 之 前 的 版 本 ， 不 能 把 register 当 作 类 装饰 器 使 用 ， 必 须 使 用 标准 


mt 





注册 之 后 ， 可 以 使 用 issubclass 和 isinstance 函数 判断 TomboList 是 不 是 Tombola 的 子 类 : 


>>> from tombola import Tombola 
>>> from tombolist import TomboList 
>>> issubclass(TomboList, Tombola) 


True 


>>> t = TomboList(range(100) ) 
>>> isinstance(t, Tombola) 


True 





然而 ， 类 的 继承 关系 在 一 个 特殊 的 类 属性 中 指定 一 一 _mro _， 即 方法 解析 顺序 (Method 














注 16: loaded 方法 不 能 采用 load 方法 的 那 种 方式 ， 因 为 list 类 型 没有 实现 Loaded 方法 所 需 的 _booL 方法 。 














而 内 置 的 bool 函数 不 需要 _bool_ 方法 ,因为 它 还 可 以 使 用 _len_ 方 法。 参见 Python 文档 中 “Built-in 
Types” 一 章 中 的 “4.1. Truth Value Testing” (https://docs.python.org/3/library/stdtypes.html#truth) 。 
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Resolution Order) 。 这 个 属性 的 作用 很 简单 ， 按 顺序 列 出 类 及 甚 超 类 ，Python 会 按照 这 个 
顺序 搜索 方法 。” 查 看 TomboList 类 的 _mro_ 属性 ， 你 会 发 现 它 只 列 出 了 “真实 的 ” 超 
类 ， 即 list 和 object: 











>>> TomboList. mro__ 
(<class 'tombolist.TomboList'>, <class 'list'>, <class 'object'>) 


Tombolist.__mro__ 中 没有 Tombola， 因 此 Tombolist 没有 从 Tombola 中 继承 任何 方法 。 


我 编写 了 儿 个 类 ， 实 现 了 相同 的 接口 ， 现 在 我 需要 一 种 编写 doctest 的 方式 来 涵盖 不 同 的 实 
现 。 下 一 市 说 明 如 何 利用 常规 类 和 抽象 基 类 的 API 编写 doctest。 


11.8 TomboLa 子 类 的 测试 方法 
我 编写 的 Tombola 示例 测试 脚本 用 到 两 个 类 属性 ， 用 它们 内 省 类 的 继承 关系 。 
__subclasses__() 
这 个 方法 返回 类 的 直接 子 类 列表 ， 不 含 虚拟 子 类 。 
_abc_registry 


只 有 抽象 基 类 有 这 个 数据 属性 ， 其 值 是 一 个 WeakSet 对 象 ， 即 抽象 类 注册 的 虚拟 子 类 的 
弱 引 用 。 


为 了 测试 Tombola HMAT, Ri BARIERE Tombola.__subclasses__() 和 Tombola._ 
abc_registry 得 到 的 列表 ， 然 后 把 各 个 类 赋值 给 在 doctest 中 使 用 的 ConcreteTombola, 


这 个 测试 脚本 成 功 运行 时 输出 的 结果 如 下 : 


$ python3 tombola_runner.py 















































BingoCage 24 tests, 0 failed - OK 
LotteryBlower 24 tests, 0 failed - OK 
TumblingDrum 24 tests, 0 failed - OK 
TomboList 24 tests, 0 failed - OK 


测试 脚本 的 代码 在 示例 11-15 FH, doctest 在 示例 11-16 F. 


示例 11-15 tombola_runner.py: Tombola 子 类 的 测试 运行 程序 


import doctest 








from tombola import Tombola 


# 要 测试 的 模块 
import bingo, lotto, tombolist, drum @ 


TEST_FILE = 'tombola_tests.rst' 
TEST_MSG = '{0:16} {1.attempted:2} tests, {1.failed:2} failed - {2}' 





注 17: 12.2 节 会 专门 讲解 _mro_ “类 属性 ， 现 在 知道 这 个 简单 的 解释 就 行 了 。 
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def main(argv): 
verbose = '-v' in argv 
real_subclasses = Tombola.__subclasses_() @ 
virtual_subclasses = list(Tombola._abc_registry) © 


for cls in real_subclasses + virtual_subclasses: @ 
test(cls, verbose) 


def test(cls, verbose=False): 


res = doctest.testfile( 
TEST_FILE, 
globs={'ConcreteTombola': cls}, © 
verbose=verbose, 
optionflags=doctest.REPORT_ONLY_FIRST_FAILURE) 
tag = 'FAIL' if res.failed else 'OK' 
print(TEST_MSG.format(cls.__name__, res, tag)) Q 


if _ name == '  main_ 
import sys 
main(sys.argv) 


O 导入 包含 Tombola 真实 子 类 和 虚拟 子 类 的 模块 ， 用 于 测试 。 

@ __subclasses_() 返回 的 列表 是 内 存 中 存在 的 直接 子 代 。 即 便 源码 中 用 不 到 想 测 试 的 模 
块 ， 也 要 将 其 导入 ， 因 为 要 把 那些 类 载 入 内 存 。 

© 把 _abc_registry (WeakSet FR) 转换 成 列表 ， 这 样 方 能 与 _subclasses__() 的 结果 拼 

O 迭 代 找 到 的 各 个 子 类 ， 分 别传 给 test 函数 。 

O 把 cls 参数 (要 测试 的 类 ) 绑 定 到 全 局 命名 空间 里 的 ConcreteTombola 名 称 上 ， 供 
doctest 使 用 。 

O 输出 测试 结果 ， 包 含 类 的 名 称 、 堂 试 运行 的 测试 数量 、 失 败 的 测试 数量 ， 以 及 'OK' 或 
'FAIL' 标记 。 


doctest 文件 如 示例 11-16 所 示 。 











al 





示例 11-16 tombola_tests.rst; Tombola 子 类 的 doctest 


Every concrete subclass of Tombola should pass these tests. 


Create and load instance from iterable:: 


>>> balls = list(range(3)) 

>>> globe = ConcreteTombola(balls) 
>>> globe. loaded() 

True 
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>>> globe.inspect() 
(0, 1, 2) 


Pick and collect balls:: 


>>> picks = [] 

>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 


Check state and results:: 


>>> globe. loaded() 

False 

>>> sorted(picks) == balls 
True 


Reload: : 


>>> globe. load(balls) 

>>> globe. loaded() 

True 

>>> picks = [globe.pick() for i in balls] 
>>> globe. loaded() 

False 


Check that ‘LookupError* (or a subclass) is the exception 
thrown when the device is empty:: 


>>> globe = ConcreteTombola([]) 
>>> try: 
globe. pick() 
. except LookupError as exc: 
print('OK') 
OK 


Load and pick 100 balls to verify that they all come out:: 


>>> balls = list(range(100)) 

>>> globe = ConcreteTombola(balls) 
>>> picks = [] 

>>> while globe.inspect(): 

os picks. append(globe. pick()) 
>>> Len(picks) == len(balls) 

True 

>>> set(picks) == set(balls) 

True 


Check that the order has changed and is not simply reversed:: 





>>> picks != balls 

True 

>>> picks[::-1] != balls 
True 


Note: the previous 2 tests have a *very* small chance of failing 
even if the implementation is OK. The probability of the 100 
balls coming out, by chance, in the order they were inspect is 
1/100!, or approximately 1.07e-158. It's much easier to win the 
Lotto or to become a billionaire working as a programmer. 


THE END 


我 们 对 Tombola 抽象 基 类 的 分 析 到 此 结束 。 下 一 节 说 明 Python 如 何 使 用 抽象 基 类 的 
register MAY, 


11.9 Python 使 用 register 的 方式 


示例 11-14 把 Tombola.register 当 作 类 装饰 器 使 用 。 在 Python 3.3 之 前 的 版 本 中 不 能 这 
样 使 用 register， 必 须 在 定义 类 之 后 像 普通 函数 那样 调用 ， 如 示例 11-14 中 最 后 那 行 注 
释 所 述 。 
虽然 现在 可 以 把 register 当 作 装饰 器 使 用 了 ， 但 更 常见 的 做 潜 还 是 把 它 当 作 函 数 使 用 ， 用 
于 注册 其 他 地 方 定义 的 类 。 例 如 ， 在 collections.abc 模块 的 源码 中 (https://hg.python. 
org/cpython/file/3.4/Lib/_collections_abc.py)， 是 这 样 把 内 置 类 型 tuple, str, range 和 
memoryview 注册 为 Sequence 的 虚拟 子 类 的 : 

Sequence.register(tuple) 

Sequence.register(str) 


Sequence.register(range) 
Sequence.register(memoryview) 























其 他 几 个 内 置 类 型 在 _collections_abc.py 文件 (https://hg.python.org/cpython/file/3.4/Lib/_ 
collections_abc.py) 中 注册 为 抽象 基 类 的 虚拟 子 类 。 这 些 类 型 在 导入 模块 时 广 册 ， 这 
样 做 是 可 以 的 ， 因 为 必须 导入 才能 使 用 抽象 基 类 : 能 访问 MutableMapping 才能 编写 


isinstance(my_dict, MutableMapping) 。 


结束 本 章 之 前 ， 还 要 解释 一 下 Alex Martelli 在 “水 禽 和 抽象 基 类 ”中 施展 的 魔法 。 


sj 4-2 ab : 
11.10 BATTARBA BERF 
Alex 在 他 写 的 “水 禽 和 抽象 基 类 ”一 文中 指出 ， 即 便 不 注册 ， 抽 象 基 类 也 能 把 一 个 类 识别 
为 虚拟 子 类 。 下 面 是 他 举 的 例子 ， 我 添加 了 一 些 代码 ， 使 用 issubclass 做 测试 : 


>>> class Struggle: 
def _ len__(self): return 23 


























>>> from collections import abc 
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>>> isinstance(Struggle(), abc.Sized) 
True 

>>> issubclass(Struggle, abc.Sized) 
True 


经 issubclass 国 数 确 认 (isinstance 国 数 也 会 得 出 相同 的 结论 ) Struggle 是 abc.Sized 
的 子 类 ， 这 是 因为 abc.Sized 实现 了 一 个 特殊 的 类 方法 ， 名 为 _subclasshook_。 参 见 示 
例 11-17。 











示例 11-17 Sized 类 的 源码 ， 摘 自 Lib/_collections_abc.py (Python 3.4, https://hg.python. 
org/cpython/file/3.4/Lib/_collections_abc.py#1127) 


class Sized(metaclass=ABCMeta): 
_slots = () 


@abstractmethod 
def __len__(self): 
return 0 


@classmethod 
def __subclasshook__(cls, C): 
if cls is Sized: 
if any(" len " in B. dict for B in C.__mro_): #0 
return True # @ 
return NotImplemented # © 


O žc nro (BNC HAE) 中 所 列 的 类 来 说 ， 如 果 类 的 _dict_ 属性 中 有 名 为 
_tLen 的 属性 Seiwa 

Oo 返回 True, IH c HE Sized 的 虚拟 子 类 。 

© 和 否则， 返回 NotImpLemented， 让 子 类 检查 。 


如 果 你 对 子 类 检查 的 细节 感 兴趣 ， 可 以 阅读 Lib/abc.py 文件 中 ABCMeta.__subclasscheck__ 
方法 的 源码 (https:Whg python.org/epython/file/3.4/Lib/abe.py#1194). W: 源码 中 有 很 多 
if 语句 和 两 个 递归 调用 。 

__subclasshook__ 在 白 鹅 类 型 中 添加 了 一 些 鸭 子 类 型 的 踪迹 。 我 们 可 以 使 用 抽象 基 类 定义 
正式 接口 ， 可 以 始终 使 用 isinstance 检查 ， 也 可 以 完全 使 用 不 相关 的 类 ， 只 要 实现 特定 的 
方法 即 可 (或 者 做 些 事 情 让 __subclasshook__ 信服 )。 当 然 ， 只 有 提供 _subclasshook__ 
方法 的 抽象 基 类 才能 这 么 做 。 


在 自己 定义 的 抽象 基 类 中 要 不 要 实现 _subctasshook_ “方法 呢 ? 可 能 不 需要 。 我 在 Python 
源码 中 只 见 到 Sized 这 一 个 抽象 基 类 实现 了 <a Sas 方法 ， 而 Sized 只 声明 了 一 
个 特殊 方法 ， 因 此 只 用 检查 这 么 一 个 特殊 方法 。 鉴 于 __len_ 方法 的 “特殊 性 ”， 我 们 基 
本 可 以 确定 它 能 做 到 该 做 的 事 。 a e E E 很 难 这 么 肯 
定 。 例 如 ， 虽 然 映 射 实现 了 __len 、_ getiten _ 和 _iter _, 但 是 不 应 该 把 它们 视 作 
Sequence 的 子 类 型 ， 因 为 不 能 使 用 整数 偏 移 值 获取 元 素 ， 也 不 能 保证 元 素 的 顺序 。 当 然 ， 
OrderedDict 除外 ， 它 保留 了 插入 元 素 的 顺序 ， 但 是 不 支持 通过 偏 移 获取 元 素 。 


在 你 我 自己 编写 的 抽象 基 类 中 实现 __subclasshook__ 方 法， 可 靠 性 很 低 。 我 可 不 相信 随便 
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一 个 实现 或 继承 了 load, pick, inspect 和 loaded 的 类 (如 Spam) 的 行为 一 定 像 Tombola, 
程序 员 最 好 让 Spam 继承 Tombola， 至 少 也 要 注册 (Tombola.register(Spam))， 从 而 确保 这 
一 点 。 当 然 ， 自 己 实现 的 __subclasshook_ 方法 还 可 以 检查 方法 签名 和 其 他 特性 ， 但 我 觉 
得 不 值得 这 么 做 。 


11.11 本 章 小 结 


本 章 首先 介绍 了 非 正 式 接口 〈 称 为 协议 ) 的 高 度 动态 本 性 ， 然 后 讲解 了 抽象 基 类 的 静态 接 
口 声 明 ， 最 后 指出 了 抽象 基 类 的 动态 特性 : 虚拟 子 类 ， 以 及 使 用 __subclasshook__ 方法 动 
态 识别 子 类 。 


我 们 首先 回顾 了 Python 社区 对 接口 的 惯常 理解 。 在 Python 的 历史 中 常常 出 现 接口 的 身影 ， 
但 它 是 非 正式 的 ， 类 似 于 Smalltalk 的 协议 ， 而 且 在 官方 文档 中 ， “foo thik” “foo 接口 ” 
All “foo 类 对 象 ”这 三 种 措辞 是 同一 个 意思 。 协 议 风格 的 接口 与 继承 完全 没有 关系 ， 实 现 
同一 个 协议 的 各 个 类 是 相互 独立 的 。 在 鸭子 类 型 中 ， 接 口 就 是 这 样 的 。 


通过 示例 11-3， 我 们 发 现 Python Xf FFF MA SHR TRA. WR PERL T 
_getitem_ 方法， 此 外 什么 也 没 做 ， 那 么 Python 会 设法 迭代 它 ， 而 且 in 运算 符 也 随 之 可 
以 使 用 。 随 后 ， 我 们 继续 编写 第 1 章 中 的 FrenchDeck 示例 ， 还 动态 添加 了 一 个 方法 ， 从 而 
让 它 支 持 洗 牌 。 这 里 用 到 的 是 猴子 补丁 ， 突 出 了 协议 的 动态 本 性 。 我 们 再 一 次 见识 到 ， 部 
分 实现 协议 也 是 有 用 的 : 添加 可 变 序列 协议 中 的 ”setitem “方法 之 后 ， 立 即 就 能 使 用 标 
准 库 中 的 random.shuffle 国 数 。 了 解 现 有 的 协议 能 让 我 们 充分 利用 Python 丰富 的 标准 库 。 


接 下 来 ，Alex Martelli 介绍 了 “ 白 鹅 类 型 ”这 个 术语 ,以 此 描述 一 种 新 的 Python 编程 风 
格 。 借 助 “ 白 物 类 型 *， 可 以 使 用 抽象 基 类 明确 声明 接口 ， 而 且 类 可 以 子 类 化 抽象 基 类 或 
使 用 抽象 基 类 注册 〈 无 需 在 继承 关系 中 确立 静态 的 强 链接 ) ， 宣 称 它 实现 了 某 个 接口 。 


FrenchDeck2 示例 清楚 地 展示 了 显 式 继承 抽象 基 类 的 优 人 缺点。 继承 abc.MutableSequence 
后 ， 必 须 实 现 insert 和 _detLitem 方法， 而 我 们 并 不 需要 这 两 个 方法 。 不 过 ， 即 便 是 
Python 新 手 ， 只 要 查看 FrenchDeck2 类 的 源码 ， 就 能 看 出 它 是 可 变 序列 。 此 外 ， 我 们 还 得 
到 一 个 额外 好 处 ， 从 abc.MutableSequence 中 继承 了 11 个 方法 (其 中 五 个 间接 继承 自 abc. 
Sequence), ， 而 且 拿 来 即 用 。 


全 面 介绍 图 11-3 中 collections.abc 模块 里 的 各 个 抽象 基 类 后 ， 我 们 自己 动手 从 头 开始 编 
写 了 一 个 抽象 基 类 。PyMOTW.com (Python Module of the Week, http://pymotw.com) 网 站 
的 创建 者 Doug Hellmann 道 出 了 这 么 做 的 目的 : 

定义 抽象 基 类 之 后 ， 各 个 子 类 可 以 实现 通用 的 API。 如 果 有 人 不 熟 双 应 用 程序 的 运 

作 方 式 ， 却 又 想 使 用 插件 扩展 ， 就 可 以 利用 这 一 功能 …… | 
定义 好 Tombola 抽象 基 类 之 后 ， 我 们 创建 了 三 个 具体 子 类 ， 两 个 继承 Tombola， 男 一 个 注册 
为 虚拟 子 类 一 一 它们 都 能 通过 同一 个 测试 组 件 。 

























































































注 18:“ 白 鹅 类 型 ”这 种 说 法 是 Alex 发 明 的 ， 这 是 它 第 一 次 出 现在 书 中 。 
注 19: PyMOTW 网 站 介绍 abc 模块 的 页 面 ,，“Why use Abstract Base Classes?” 一 节 (https://pymotw.com/2/ 


abc/index.html#why-use-abstract-base-classes) o 
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本 章 结 束 之 前 ， 我 们 提 到 了 几 个 内 置 类 型 是 如 何 注 册 到 collections. abe 模块 中 的 抽象 
基 类 的 。 这 样 ， 虽 然 memoryview 没有 继承 abc.Sequence, isinstance(memoryview, abc. 
Sequence) 的 结果 也 是 True。 最 后 ， 我 们 探究 了 _subclasshook__ 魔法 。 这 个 方法 的 作用 
是 让 抽象 基 类 识别 没有 注册 为 子 类 的 类 ， 你 可 以 根据 需要 做 简单 的 或 者 复杂 的 测试 一 一 标 
准 库 的 做 法 只 是 检查 方法 名 称 。 

最 后 的 最 后 ， 我 要 重申 Alex Martelli 的 警告 : 不 要 自己 定义 抽象 基 类 ， 除 非 你 要 构建 允许 
用 户 扩展 的 框架 一 一 然而 大 多 数 情况 下 并 非 如 此 。 日 常 使 用 中 ， 我 们 与 抽象 基 类 的 联系 应 
该 是 创建 现 有 抽象 基 类 的 子 类 ， 或 者 使 用 现 有 的 抽象 基 类 注册 。 此 外 ， 我 们 可 能 还 会 在 
isinstance 检查 中 使 用 抽象 基 类 ， 但 这 比 继承 或 注册 更 少见 。 需 要 自己 从 头 编写 新 抽象 基 
类 的 情况 少 之 又 少 。 

我 使 用 Python 15 年 了 ， 除 了 教学 示例 以 外 ， 我 只 在 Pingo MA (http://pingo.io) 中 编写 过 
一 个 抽象 类 ， 即 Board 类 (https://github.com/garoa/pingo/blob/master/pingo/board.py)。 支 持 
单 板 机 和 控制 器 的 驱动 是 Board 的 子 类 ， 共 用 相同 的 接口 。 就 算 我 把 pingo.Board 打造 成 
抽象 类 ， 它 也 并 没有 继承 abc.ABC。” 我 本 打算 把 Board 定义 为 抽象 基 类 ， 但 是 Pingo M A 
有 更 重要 的 事情 要 做 。 


本 章 适 合 使 用 下 面 这 段 话 结尾 : 
尽管 抽象 基 类 使 得 类 型 检查 变 得 更 容易 了 ， 但 不 应 该 在 程序 中 过 度 使 用 它 。Python 的 
核心 在 于 它 是 一 门 动态 语言 ， 它 带 来 了 极 大 的 灵活 性 。 如 果 处 处 部 强制 实行 类 型 约束 ， 
那么 会 使 代码 变 得 更 加 复杂 ， 而 本 不 应 该 如 此 。 我 们 应 该 拥抱 Python 的 灵活 性 。” 
































David Beazley 和 Brian Jones 
《Python Cookbook (第 3 版 ) 中 文 版 》 


或 者 ， 像 本 书 技术 审 校 Leonardo Rochael 所 写 的 :“ 如 果 觉 得 自己 想 创建 新 的 抽象 基 类 ， 先 
试 着 通过 常规 的 鸭子 类 型 来 解决 问题 。 


11.12 延伸 阅读 


Beazley 与 Jones 的 《Python Cookbook (第 3 版 ) 中 文 版 》 有 一 节 (8.12) 定义 了 一 个 抽象 基 
类 。 这 本 书 在 Python 3.4 之 前 撰写 ， 因 此 他 们 没有 使 用 现在 推荐 的 句法 ， 即 通过 继承 abc. 
ABC 声明 抽象 基 类 ， 而 是 使 用 metaclass 关键 字 。 除 了 这 个 小 细节 之 外 ， 那 个 秘笈 很 好 地 洒 
盖 了 抽象 基 类 的 主要 功能 ， 而 且 最 后 还 给 出 了 宝贵 的 意见 ， 即 前 一 节 末 尾 引 用 的 那 段 话 。 

Doug Hellmann 写 的 《Python 标准 库 》 一 书 中 有 一 章 是 关于 abc 模块 的 。Doug 创建 的 
PyMOTW (Python Module of the Week) 站 中 也 有 那 一 章 (http://pymotw.com/2/abc/ 
index.html)。 这 本 书 和 PyMOTW 网 站 都 针对 Python 2， 因 此 如 果 你 使 用 Python 3 的 
话 ， 必 须 做 些 调整 。” 记 住 ， 在 Python 3.4 中 ， 唯 一 推荐 使 用 的 抽象 基 类 方法 装饰 器 是 
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TE 20: Python 标准 库 也 有 这 样 做 的 ， 有 些 类 虽然 是 抽象 的 ， 但 是 并 没有 显 式 地 继承 abc. ABC, 
注 21: 《Python Cookbook (第 3 版 ) 中 文 版 》 第 281 页 。 
注 22: PyMOTW 网 站 现在 已 经 是 面向 Python 3 了 。 一 一 编者 注 
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Q@abstractmethod， 其 他 装饰 器 已 经 废弃 了 。 本 章 小 结 中 引用 的 关于 抽象 基 类 的 另 一 句 话 出 
Á Doug 的 网 站 和 这 本 书 。 


使 用 抽象 基 类 时 ， 经 常会 遇 到 多 重 继承 ， 而 且 是 不 可 避免 的 ， 因 为 基本 的 集合 抽象 基 类 
(Sequence, Mapping 和 Set) 都 扩展 多 个 抽象 基 类 (如 图 11-3 所 示 )。 第 12 章 接着 讨论 这 
个 话题 ， 那 是 重要 的 一 章 。 

“PEP 3119 一 Introducing Abstract Base Classes” (https:Wwww.python.org/dev/peps/pep-3119) 
讲解 了 抽象 基 类 的 基本 原理 , “PEP 3141—A Type Hierarchy for Numbers” (https://www. 


python.org/dev/peps/pep-3141/) 提出 了 numbers 模块 (https://docs.python.org/3/library/numbers. 
html) 中 的 抽象 基 类 。 


Bill Venners 对 Guido van Rossum 的 采访 “Contracts in Python: A Conversation with Guido van 
Rossum, Part IV” (http://www.artima.com/intv/pycontract.html) 讨论 了 动态 类 型 的 优 人 缺点。 


zope.interface 包 (http://docs.zope.org/zope.interface/) 提供 了 一 种 声明 接口 的 方式 : 检 
查 对 象 是 否 实现 了 接口 ， 注 册 提供 方 ， 然 后 查询 指定 接口 的 提供 方 。 一 开始 ， 这 个 包 是 
Zope 3 核心 的 一 部 分 ， 不 过 它 可 以 在 Zope 外 部 使 用 ， 而 且 已 经 有 人 这 么 做 了 。 这 个 包 
为 大 型 Python 项 目 (如 Twisted、Pyramid FH Plone) 的 组 件 式 架构 提供 了 灵活 的 基础 。 
Lennart Regebro 写 的 “A Python Component Architecture” — X (https://regebro.wordpress. 
com/2007/11/16/a-python-component-architecture/) 对 zope.interface 包 做 了 介绍 ，Baiju 
M 还 写 了 一 本 相关 的 书 ‘A Comprehensive Guide to Zope Component Architecture (http:// 
muthukadan.net/docs/zca.html) 。 












































类 型 提示 

2014 年 ，Python 世界 最 大 的 新 闻 应 该 是 Guido van Rossum 同意 实现 可 选 的 静态 类 型 
检查 ， 这 与 检查 程序 Mypy (http://www.mypy-lang.org) 的 做 法 类 似 ， 即 使 用 函数 注 
解 实现 。 这 一 消息 出 自 8 月 15 日 发 表 在 Python-ideas 邮件 列表 中 的 一 个 话题 ， 题 为 
“Optional static typing 一 the crossroads” (https://mail.python.org/pipermail/python-ideas/2014- 
August/028742.html) 。 一 个 月 后 ,， “PEP 484—Type Hints” # # (https:/Awww.python.org/ 
dev/peps/pep-0484/) 发 布 了 ， 发 起 人 是 Guido, 


这 个 功能 的 目的 是 让 程序 员 在 函数 定义 中 使 用 注解 声明 参数 和 返回 值 的 类 型 ， 但 这 是 
可 选 的 。 关 键 在 于 “可 选 ”二 字 。 仅 当 你 想得到 注解 的 好 处 和 限制 时 才 需 要 添加 注解 ， 
而 且 可 以 在 一 些 函 数 中 添加 ， 在 另 一 些 函数 中 不 添加 。 


从 表面 上 看 ， 这 与 Microsoft 对 TypeScript (JavaScript 的 超 集 ) 采取 的 方式 类 似 ， 不 过 
TypeScript 做 得 更 进一步 : TypeScript 添加 了 新 的 语言 结构 (如 模块 、 类 、 显 式 接口 ， 
等 等 )， 允 许 声 明 变 量 类 型 ,而且 最 终 编 译 成 常规 的 JavaScript。 目 前 来 看 ，Python 的 
可 选 静 态 类 型 没 这 么 大 的 雄心 。 


为 了 理解 这 个 提案 的 动机 ， 不 能 忽略 Guido 在 2014 年 8 月 15 日 发 送 的 那 封 重 要 邮件 
中 的 这 段 话 : 
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我 还 得 做 个 假设 : 这 个 功能 主要 供 lint 程序 、IDE 和 文档 生成 工具 使 用 。 这 些 工 
具有 个 共同 点 : 即使 类 型 检查 失败 了 ， 程 序 仍 能 运行 。 此 外 ， 程 序 中 添加 的 类 
型 不 能 降低 性 能 (也 不 能 提升 性 能 :-)) 。 
此 ， 这 一 举动 并 不 像 乍 一 看 那么 激进 。 “PEP 484 一 Type Hints” (https://www.python. 
org/dev/peps/pep-0484/) 提 到 了 “PEP 482 一 Literature Overview for Type Hints” (https:// 
www.python.org/dev/peps/pep-0482/) ， 后 者 概述 了 第 三 方 Python 工具 和 其 他 语言 实现 
类 型 提示 的 方式 。 
不 管 激进 不 激进 ， 类 型 提示 都 将 到 来 : 支持 PEP 484 的 typing 模块 好 像 已 经 纳入 
Python 3.5。” 根据 这 个 提案 的 表述 和 实现 方式 ， 可 以 肯定 的 是 ， 现 有 代码 不 会 因为 热 
少 类 型 提示 (或 相关 的 附加 物 ) 而 无 法 运行 。 
最 后 ，PEP 484 明确 指出 : 


还 要 强调 一 点 ，Python 依旧 是 一 门 动态 类 型 语言 ， 作 者 从 未 打算 强制 要 求 使 用 
类 型 提示 ， 其 至 不 会 把 它 变 成 约定 。 


Python 是 弱 类 型 语言 吗 

由 于 缺少 统一 的 术语 ， 讨 论语 言 类 型 方面 的 话题 时 有 时 会 让 人 不 明 其 意 。 有 些 人 

(例如 扩展 阅读 中 提 到 的 Bill Venners 对 Guido 的 访谈 ) 说 Python 是 弱 类 型 语言 ， 把 

Python 4 JavaScript 和 PHP 归 为 一 类 。 讨 论 类 型 时 ， 最 好 考虑 两 条 不 同 的 坐标 线 。 

强 类 型 和 弱 类 型 
如 果 一 门 语言 很 少 隐 式 转换 类 型 ， 说 明 它 是 强 类 型 语言 ; 如 果 经 常 这 么 做 ,说 明 它 
是 弱 类 型 语言 。Java、C++ 和 Python 是 强 类 型 语言 。PHP、JavaScript 和 Perl 是 弱 
类 型 语言 。 

静态 类 型 和 动态 类 型 
在 编译 时 检查 类 型 的 语言 是 静态 类 型 语言 ， 在 运行 时 检查 类 型 的 语言 是 动态 类 型 
语言 。 静 态 类 型 需要 声明 类 型 (有 些 现代 语言 使 用 类 型 推导 避免 部 分 类 型 声明 )。 
Fortran 和 Lisp 是 最 早 的 两 门 语言 ， 现 在 仍 在 使 用 ， 它 们 分 别 是 静态 类 型 语言 和 动 
态 类 型 语言 。 

强 类 型 能 及 早 发 现 缺 陷 。 

下 面 几 例 体 现 了 弱 类 型 的 不 足 : * 


// 这 些 是 JavaScript 代 码 (在 Node.js v0.10.33 中 做 了 测试 ) 














TE O" // false 
Qa s // true 
0 == '0' // true 
注 23; MÆ, typing 模块 已 经 纳入 Python 3.5, 一 一 编者 注 


注 24: 改编 自 JavaScript: The Good Parts (Douglas Crockford 3%) 附录 B 第 109 页 给 出 的 示例 。 
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"< 0 // false 

”< 'Q' // true 
因为 Python 不 会 自动 在 字符 串 和 数字 之 间 强 制 转换 ， 所 以 在 Python 3 PF, bik == 表 
达 式 的 结果 都 是 False (保留 了 == 的 意思 ) ， 而 < 比较 会 抛 出 TypeError。 


静态 类 型 使 得 一 些 工 具 (编译 器 和 IDE) 便于 分 析 代 码 、 找 出 错误 和 提供 其 他 服务 
(优化 、 重 构 ， 等 等 ) 。 动 态 类 型 便于 代码 重用 ， 代 码 行 数 更 少 ， 而 且 能 让 接口 自然 成 
为 协议 而 不 提早 实行 。 

综 上 ，Python 是 动态 强 类 型 语言 。 “PEP 484 一 Type Hints” (https://www.python.org/dev/ 
peps/pep-0484/) 无 法 改变 这 一 点 ， 但 是 API 作者 能 够 添加 可 选 的 类 型 注解 ， 执 行 某 种 
猴子 补丁 

猴子 补丁 的 名 声 不 太 好 。 如 果 滥 用 ,会 导致 系统 难以 理解 和 维护 。 补 丁 通常 与 目标 紧 
密 耦 合 ， 因 此 很 脆弱 。 另 一 个 问题 是 ， 打 了 猴子 补丁 的 两 个 库 可 能 相互 牵 绊 ， 因 为 第 
三 个 库 可 能 撤销 了 第 一 个 库 的 补丁 。 

不 过 猴子 补丁 也 有 它 的 作用 ， 例 如 可 以 在 运行 时 让 类 实现 协议 。 咎 配器 设计 模式 通过 
实现 全 新 的 类 解决 这 种 问题 。 


为 Python 打 猴 子 补 丁 不 难 ， 但 是 有 些 局 限 。 与 Ruby 和 JavaScript 不 同 ，Python 不 允 
许 为 内 置 类 型 打 猴 子 补丁 。 其 实 我 觉得 这 是 优点 ， 因 为 这 样 可 以 确保 str 对 象 的 方法 
始终 是 那些 。 这 一 局 限 能 减少 外 部 库 打 的 补丁 有 冲突 的 概率 。 


Java、Go 和 Ruby 的 接口 


从 C++ 2.0 (1989 年 发 布 ) 起 ， 这 门 语言 开始 使 用 抽象 类 指定 接口 。Java 的 设计 者 选 
择 不 支持 类 的 多 重 继承 ， 这 排除 了 使 用 抽象 类 作为 接口 规范 的 可 能 性 ， 因 为 一 个 类 通 
常会 实现 多 个 接口 。 但 是 ，Java 的 设计 者 添加 了 interface 这 个 语言 结构 ， 而 且 允 许 
一 个 类 实现 多 个 接口 一 一 这 是 一 种 多 重 继承 。 以 更 为 明确 的 方式 定义 接口 是 Java 的 一 
大 贡献 。 在 Java 8 中 ,接口 可 以 提供 方法 实现 ， 这 叫 默 认 方 法 (https://docs.oracle.com/ 
javase/tutorialjava/IandI/defaultmethods.html) 。 有 了 这 个 功能 ，Java 的 接口 与 C++ 和 
Python 中 的 抽象 类 更 像 了 。 


Go 语言 采用 的 方式 完全 不 同 。 首 先 ，Go 不 支持 继承 。 我 们 可 以 定义 接口 ， 但 是 无 需 
(其 实 也 不 能 ) 明确 地 指出 某 个 类 型 实现 了 某 个 接口 。 编 译 器 能 自动 判断 。 因 此 ， 考 虑 
到 接口 在 编译 时 检查 ， 但 是 真正 重要 的 是 实现 了 什么 类 型 ，Go 语言 可 以 说 是 具有 “ 静 
SAPA”, 


与 Python 相 比 ， 对 Go 来 说 就 好 像 每 个 抽象 基 类 部 实现 了 __subclasshook__ 方法， 
它 会 检查 函数 的 名 称 和 签名 ， 而 我 们 自己 从 不 需要 继承 或 注册 抽象 基 类 。 如 果 想 让 
Python 更 像 Go， 可 以 对 所 有 函数 参数 做 类 型 检查 。Python 提供 了 部 分 基础 设施 (A 
见 5.9 节 )。Guido 说 过 ， 他 不 介意 使 用 注解 做 类 型 检查 ， 至 少 在 辅助 工具 中 可 以 这 么 
做 。 详 情 参阅 第 5 章 的 “杂谈 ?”。 
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Ruby 程序 员 是 鸭子 类 型 的 坚定 拥护 者 ， 而 且 Ruby 没有 声明 接口 或 抽象 类 的 正式 方式 ， 
只 能 像 Python 2.6 之 前 的 版 本 那样 做 ， 即 在 方法 的 定义 体 中 抛 出 NotImpLementedError， 
以 此 表明 方法 是 抽象 的 ， 用 户 必 须 在 子 类 中 实现 。 


不 过 ，2014 年 9 月 ，Ruby 之 父 松本 行 弘 在 日 本 举办 的 Ruby Kaigi (最 重要 的 Ruby 大 
会 之 一 ， 每 年 举办 ) 中 做 了 一 场 主题 演讲 ， 他 透露 说 ，Ruby 未 来 可 能 会 支持 静态 类 
型 。 目 前 我 还 没 看 到 相关 报道 ， 但 是 根据 Godfrey Chan 的 博客 文章 “Ruby Kaigi 2014: 
Day 2”(http://brewhouse.io/blog/2014/09/19/ruby-kaigi-2014-day-2) ， 松 本 行 弘 关注 的 似 
乎 是 水 数 注解 。 他 其 至 还 提 到 了 Python 的 函数 注解 。 


在 没有 抽象 基 类 向 类 型 系统 添加 结构 ， 以 及 不 闻 失 灵活 性 的 情况 下 ， 我 不 知道 水 数 注 
解 有 什么 用 。 因 此 ，Ruby 未 来 可 能 还 会 支持 正式 接口 。 


我 相信 ，Python 的 抽象 基 类 在 register 函数 和 __subclasshook__ 方法 的 协助 下 能 把 正 
式 接口 带 入 这 门 语言 ， 而 且 不 失去 动态 类 型 的 优势 。 


AH, MEARE. 
接口 中 的 隐喻 和 习惯 用 法 


隐喻 能 打破 壁 全 ,让 人 更 易于 理解 。 使 用 “ 栈 ” 和 “队列 ”描述 基本 的 数据 类 型 就 有 
这 样 的 功效 : 这 两 个 词 清楚 地 道 出 了 添加 或 删除 元 素 的 方式 。 另 一 方面 ，Alan Cooper 
在 《交互 设计 精髓 (第 4 版 )》 中 写 道 : 


严格 奉行 隐喻 设计 毫 无 必要 ， 却 把 界面 死 死 地 与 物理 世界 的 运行 机 制 捆绑 在 
一 起 。 


他 说 的 是 用 户 界 面 ， 但 对 API 同样 适用 。 不 过 Cooper 同意 ， 当 “真正 合适 的 ”隐喻 
“正中 下 怀 ” 时 ， 可 以 使 用 隐喻 (他 用 的 词 是 “正中 下 怀 ”， 因 为 合适 的 隐喻 可 遇 不 可 
求 ) 。 我 觉得 本 章 用 宾 果 机 作 比 喻 是 合适 的 ， 我 相信 自己 。 


我 读 过 不 少 UI 设计 方面 的 书 , (RRR) Ami, AA Cooper 的 书 中 学 到 的 
最 宝贵 的 知识 是 ， 不 把 隐喻 当 作 设计 范式 ， 而 代 之 以 “习惯 用 法 的 界面 "。 前 面 说 过 ， 
Cooper 说 的 不 是 API， 但 是 我 越 深入 思考 他 的 观点 ， 越 觉得 可 以 将 之 运用 到 Python 
P, Python 语言 的 基本 协议 就 是 Cooper 所 说 的 “习惯 用 法 ”。 知 道 “ 序 列 ” 是 什么 之 
后 ， 可 以 把 这 些 知识 应 用 到 不 同 的 场合 。 这 正 是 本 书 的 主要 目的 : 着 重 讲解 这 门 语言 
的 基本 惯用 法 ， 让 你 的 代码 简洁 、 高 效 且 可 读 ， 把 你 打造 成 熟练 的 Python 程序 员 。 
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第 12 章 


继承 的 优 缺 后 





(我 们 ) 推出 继承 的 初 袁 是 让 新 手 顺利 使 用 只 有 专家 才能 设计 出 来 的 框架 。、 





‘Alan Kay 
“The Early History of Smalltalk” 


本 章 探讨 继承 和 子 类 化 ， 重 点 是 说 明 对 Python 而 言 尤 为 重要 的 两 个 细 市 : 

。 子 类 化 内 置 类 型 的 缺点 

。 多 重 继承 和 方法 解析 顺序 

很 多 人 觉得 多 重 继承 得 不 偿 失 。 不 支持 多 重 继承 的 Java 显然 没有 什么 损失 ，C++ 对 多 重 继 
承 的 滥用 伤害 了 很 多 人 ， 这 可 能 还 坚定 了 使 用 Java 的 决心 。 

然而 ，Java 的 巨大 成 功 和 广泛 影响 ， 也 导致 很 多 刚 接触 Python 的 程序 员 没 怎么 见 过 真实 的 


代码 使 用 多 重 继承 。 鉴 于 此 ， 我 们 将 不 再 举 简单 的 示例 ， 而 是 通过 两 个 重要 的 Python 项 目 
探讨 多 重 继承 ， 这 两 个 项 目 是 GUI LHA Tkinter 和 Web 框架 Django. 


我 们 将 首先 分 析 子 类 化 内 置 类 型 的 问题 。 本 章 余 下 的 内 容 则 探讨 多 重 继承 ， 我 们 将 分 析 案 
例 ， 并 讨论 构建 类 层次 结构 方面 好 的 做 法 和 不 好 的 做 法 。 


12.1 子 类 化 内 置 类 型 很 麻烦 


在 Python 2.2 之 前 ， 内 置 类 型 (如 list 或 dict) 不 能 子 类 化 。 在 Python 2.2 之 后 ， 内 置 类 
型 可 以 子 类 化 了 ， 但 是 有 个 重要 的 注意 事项 : 内 办 类 型 (使 用 C 语言 编写 ) 不 会 调用 用 户 



























































iE 1: Alan Kay, “The Early History of Smalltalk,” in SIGPLAN Not. 28, 3 (March 1993), 69-95. 网 上 也 有 这 篇 文章 
(http://propella.sakura.ne.jp/earlyHistoryST/EarlyHistoryST.html) 。 感 谢 我 的 朋友 Christiano Anderson 在 我 写 
这 一 章 时 告诉 我 这 篇 参考 文献 。 
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定义 的 类 覆盖 的 特殊 方法 。 


PyPy 的 文档 使 用 简明 扼要 的 语言 描述 了 这 个 问题 ， 见 于 “Differences between PyPy and 
CPython” 中 “Subclasses of built-in types” 一 节 (http://pypy.readthedocs.io/en/latest/cpython_ 





differences.html#subclasses-of-built-in-types) : 


至 于 内 置 类 型 的 子 类 履 盖 的 方法 会 不 会 隐 式 调用 ，CPython 没有 制定 官方 规则 。 
基本 上 ， 内 置 类 型 的 方法 不 会 调用 子 类 履 盖 的 方法 。 例 如 ，dict hý ža 
__getitem_() 方法 不 会 被 内 置 类 型 的 get() 方法 调用 。 


示例 12-1 说 明了 这 个 问题 。 


示例 12-1 内 置 类 型 dict HJ _init_ FH update “方法 会 包 略 我 们 履 盖 的 _setitem “方法 
>>> class DoppelDict(dict): 
def __setitem__(self, key, value): 
super().__setitem__(key, [value] * 2) #@ 


>>> dd = DoppelDict(one=1) # @ 

>>> dd 

{'one': 1} 

>>> dd['two'] = 2 # © 

>>> dd 

{'one': 1, 'two': [2, 2]} 

>>> dd.update(three=3) # @ 

>>> dd 

{'three': 3, 'one': 1, 'two': [2, 2]} 


@ DoppelDict._setitem_ 方法 会 重复 存 入 的 值 (只 是 为 了 提供 易于 观察 的 效果 )。 它 把 


内 责 委托 给 超 类 。 


O 继承 自 dict 的 init 方法 显然 忽略 了 我 们 覆盖 的 _setitem_ 方 法 :'one' 的 值 没 有 





O [] 运算 符 会 调用 我 们 覆盖 的 _setitem “方法 ， 按 预期 那样 工作 : 'two' 对 应 的 是 两 个 
重复 的 值 ， 即 [2，2] 。 

O 继承 自 dict 的 update 方法 也 不 使 用 我 们 覆盖 的 _setitem “方法 : ‘three’ 的 值 没有 重复 。 
原生 类 型 的 这 种 行为 违背 了 面向 对 象 编程 的 一 个 基本 原则 : 始终 应 该 从 实例 (self) 所 
属 的 类 开始 搜索 方法 ， 即 使 在 超 类 实现 的 类 中 调用 也 是 如 此 。 在 这 种 糟糕 的 局 面 中 ， 
missing ik (参见 3.4.2 节 ) 却 能 按 预期 方式 工作 ， 不 过 这 只 是 特例 。 
不 只 实例 内 部 的 调用 有 这 个 问题 (self.get() 不 调用 self.__getitem_())， 内 置 类 型 的 方 
法 调用 的 其 他 类 的 方法 ， 如 果 被 覆盖 了 ， 也 不 会 被 调用 。 示 例 12-2 是 一 个 例子 ， 改 编 自 
PyPy 文档 中 的 示例 (http://pypy.readthedocs.io/en/latest/cpython_differences.html#subclasses- 
of-built-in-types ) 。 


















































示例 12-2 dict.update 方法 会 忽略 AnswerDict.__getitem__ 方法 
>>> class AnswerDict(dict): 
def __getitem_(self, key): #@ 
return 42 
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>>> ad = AnswerDict(a='foo') #@ 
>>> ad['a'] #6 


42 

>>> d = {} 

>>> d.update(ad) #@ 
>>> d['a'] #0 

'foo' 

>>> d 


'a': 'foo'} 


O 不 管 传 入 什么 键 ，AnswerDict.__getitem__ 方法 始终 返回 42, 
@ ad 是 AnswerDict 的 实例 ， 以 ('a' ，'foo' ) 键 值 对 初始 化 。 
© ad['a'] 返回 42， 这 与 预期 相符 。 

O d Æ dict 的 实例 ， 使 用 ad 中 的 值 更 新 d。 

O dict.update 方法 忽略 了 AnswerDict.__getitem_ 方法 。 


直接 子 类 化 内 置 类 型 (An dict, list 或 str) 容易 出 错 ， 因 为 内 置 类 型 的 方 
法 通常 会 忽略 用 户 覆 盖 的 方法 。 不 要 子 类 化 内 置 类 型 ， 用 户 自己 定义 的 类 应 
该 继承 collections 模块 (http://docs.python.org/3/library/collections.html) 中 
的 类 ， 例 如 UserDict, UserList 和 UsersString， 这 些 类 做 了 特殊 设计 ， 因 此 
易于 扩展 。 
































如 果 不 子 类 化 dict， 而 是 子 类 化 coLLections.UserDict， 示 例 12-1 和 示例 12-2 中 暴露 的 
问题 便 迎 为 而 解 了 。 参 见 示 例 12-3。 


示例 12-3 DoppelDict2 和 AnswerDict2 能 像 预 期 那样 使 用 ， 因 为 它们 扩展 的 是 UserDict, 
而 不 是 dict 


>>> import collections 
>>> 
>>> Class DoppelDict2(collections.UserDict): 
def _ setitem (self, key, value): 
super().__setitem__(key, [value] * 2) 





>>> dd = DoppelDict2(one=1) 
>>> dd 
{'one': [1, 1]} 
>>> dd['two'] = 2 
>>> dd 
{'two': [2, 2], 'one': [1, 1]} 
>>> dd.update(three=3) 
>>> dd 
{'two': [2, 2], 'three': [3, 3], 'one': [1, 1]} 
>>> 
>>> class AnswerDict2(collections.UserDict): 
def _ getitem (self, key): 
return 42 


>>> ad = AnswerDict2(a='foo') 
>>> ad['a'] 
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>>> d = {} 

>>> d.update(ad) 

>>> d['a'] 

42 

>>> d 

{'a': 42} 
为 了 衡量 子 类 化 内 置 类 型 所 需 的 额外 工作 量 ， 我 做 了 个 实验 ， 重 写 了 示例 3-8 中 
的 StrKeyDict 类 。 原始 版 继承 自 coLLections.UserDict， 而 且 只 实现 了 三 个 方法 : 

__missing__, __contains__ fH setitem _。 在 实验 中 ，StrkeyDict 直接 子 类 化 dict, 而 

且 也 实现 了 那 三 个 方法 ， 不 过 根据 存储 数据 的 方式 稍微 做 了 调整 。 可 是 ， 为 了 让 实验 版 
通过 原始 版 的 测试 组 件 ， 还 要 实现 init, get 和 update 方法， 因为 继承 自 dict 的 版 
本 拒绝 与 覆盖 的 _missing_、_ contains 和 __setitem Wi AVE. AR fil 3-8 中 那个 
UserDict PXA 16 行 代码 ， 而 实验 的 dict PA 37 行 代码 。” 


综 上 ， 本 节 所 述 的 问题 只 发 生 在 C 语言 实现 的 内 置 类 型 内 部 的 方法 委托 上 ， 而 且 只 影响 
直接 继承 内 置 类 型 的 用 户 定义 类 。 如 果子 类 化 使 用 Python 编写 的 类 ， 如 UserDict 或 
MutableMapping， 就 不 会 影响 。，” 
与 继承 ， 尤 其 是 多 重 继承 有 关 的 另 一 个 问题 是 : 如 果 同 级 别 的 超 类 定义 了 同名 属性 ， 
Python 如 何 确定 使 用 哪个 ?下 一 节 解 答 


12.2 多重 继承 和 方法 解析 顺序 


任何 实现 多 重 继承 的 语言 都 要 处 理 潜 在 的 命名 冲突 ， 这 种 冲突 由 不 相关 的 祖先 类 实现 同名 
方法 引起 。 这 种 冲突 称 为 “ 砍 形 问题 ， 如 图 12-1 和 示例 12-4 所 示 。 
















































































12-1: (Æ) 说 明 “ 姜 形 问题 ”的 UML 类 图 ，( 右 ) 虚线 箭头 是 示例 12-4 使 用 的 方法 解析 顺序 




















注 2: 如 果 好 奇 ， 实 验 版 在 本 书 代 码 仓库 (https://github.com/fluentpython/example-code) 里 的 strkeydict_ 
dictsub.py 文件 中 。 

注 3: 顺便 说 一 下 ， 在 这 方面 ，PyPy 的 行为 比 CPython“ 正 确 *， 不 过 会 导致 微小 的 差异 。 详 情 参 见 “Differences 
between PyPy and CPython” (http://pypy.readthedocs.io/en/latest/cpython_differences.html#subclasses-of-built-in-types ) 。 




















292 | #122 


示例 12-4 diamond.py: 
class A: 
def ping(self): 
print('ping:' 


class B(A): 
def pong(self): 
print('pong:' 


class C(A): 
def pong(self): 
print('PONG:' 


class D(B, C): 


def ping(self): 














? 


’ 


3 


super().ping() 
print('post-ping:', self) 


def pingpong(self): 


self.ping() 


super().ping() 


self .pong() 


super ().pong() 


C.pong(self) 


12-1 中 的 A、B、C 和 0 四 个 类 


self) 


self) 


self) 


注意 ，B 和 Cc 都 实现 了 pong 方 法， 二 者 之 间 唯 一 的 区 别 是 ，C.pong 方法 输出 的 是 大 写 的 


PONG, 





TE D 的 实例 上 调用 d.pong() 方法 的 话 ， 运 行 的 是 哪个 pong 方法 呢 ? 在 C++ 中 ， 程 序 员 必 





须 使 用 类 名 限定 方法 调用 来 避免 这 种 歧义 。Python 也 能 这 么 做 ， 如 示例 12-5 所 示 。 
示例 12-5 ZED 实例 上 调用 pong 方法 的 两 种 方式 


>>> from diamond import * 


>>> d = D() 
>>> d.pong() #@ 


pong: <diamond.D object at 0x10066c278> 


>>> C.pong(d) #@ 


PONG: <diamond.D object at 0x10066c278> 
O 直接 调用 d.pong() 运行 的 是 B 类 中 的 版 本 。 
O 超 类 中 的 方法 都 可 以 直接 调用 ， 此 时 要 把 实例 作为 显 式 参数 传人 。 


Python 能 区 分 d.pong() 调用 的 是 哪个 方法 ， 是 因为 Python 会 按照 特定 的 顺序 遍历 继承 图 。 
这 个 顺序 叫 方法 解析 顺序 (Method Resolution Order，MRO)。 类 都 有 一 个 名 为 _mro_ 的 





属性 ， 它 的 值 是 一 个 元 组 
object 类 。D 类 的 _mro 


>>> D.__mro__ 


> 








按照 方法 解析 顺序 列 出 各 个 超 类 ， 从 当前 类 一 直 向 上 ， 直 到 





属性 如 下 (如 图 12-1 Aras) : 
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(<class 'diamond.D'>, <class 'diamond.B'>, <class 'diamond.C'>, 
<class 'diamond.A'>, <class 'object'>) 


若 想 把 方法 调用 委托 给 超 类 ， 推 荐 的 方式 是 使 用 内 置 的 super() 函数 。 在 Python 3 +1, ix 
种 方式 变 得 更 容易 了 ， 如 示例 12-4 中 D 类 的 pingpong FMR. 然而 ， 有 了 时 可 能 需要 线 
过 方法 解析 顺序 ， 直 接 调用 某 个 超 类 的 方法 一 一 这 样 做 有 了 时 更 方便 。 例 如 ，D.ping 方法 可 
以 这 样 写 : 
def ping(self): 

A.ping(self) # 而 不 是 super().ping() 

print('post-ping:', self) 
注意 ， 直 接 在 类 上 调用 实例 方法 时 ， 必 须 显 式 传 和 人 self 参数 ， 因 为 这 样 访问 的 是 未 绑 定 方 
法 (unbound method ) 。 


然而 ， 使 用 super() 最 安全 ， 也 不 易 过 时 。 调 用 框架 或 不 受 自己 控制 的 类 层次 结构 中 的 方 
法 时 ， 尤 其 适合 使 用 super()。 使 用 super() 调用 方法 时 ， 会 遵守 方法 解析 顺序 ， 如 示例 
12-6 所 示 。 


示例 12-6 使 用 super() 函数 调用 ping 方法 (源码 在 示例 12-4 中 ) 
>>> from diamond import D 
>>> d = D() 
>>> d.ping() #@ 
ping: <diamond.D object at 0x10cc40630> # @ 
post-ping: <diamond.D object at 0x10cc40630> # © 


O D 类 的 ping 方法 做 了 两 次 调用 。 

@ 第 一 个 调用 是 super().ping(); super 国 数 把 ping 调用 委托 给 A 类 ;这 一 行 由 A.ping 
输出 。 

© 第 二 个 调用 是 print('post-ping:'，self)， 输 出 的 是 这 一 行 。 


下 面 来 看 在 D 实例 上 调用 pingpong 方法 得 到 的 结果 ， 如 示例 12-7 所 示 。 
示例 12-7 pingpong 方法 的 5 个 调用 (源码 在 示例 12-4 中 ) 


>>> from diamond import D 

>>> d = D() 

>>> d.pingpong() 

ping: <diamond.D object at 0x10bf235c0> # @ 
post-ping: <diamond.D object at 0x10bf235c0> 
ping: <diamond.D object at 0x10bf235c0> # @ 
pong: <diamond.D object at 0x10bf235c0> # © 
pong: <diamond.D object at 0x10bf235c0> # @ 
PONG: <diamond.D object at 0x10bf235c0> # @ 


O 第 一 个 调用 是 self.ping()， 运行 的 是 D 类 的 ping 方法 ， 输 出 这 一 行 和 下 一 行 。 
O 第 二 个 调用 是 super().ping()， 跳 过 D 类 的 ping 方法 ， 找 到 A 类 的 ping WHE. 
© 第 三 个 调用 是 seLf.pong()， 根 据 _mro_ _， 找 到 的 是 B 类 实现 的 pong 方法 。 

O 第 四 个 调用 是 super().pong()， 也 根据 mro, REI B 类 实现 的 pong 方法 。 


















































注 4: 在 Python 2 中 ， 要 把 D.pingpong 方法 的 第 二 行 从 super().ping() 改 成 super(D，self).ping()。 
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O 第 五 个 调用 是 C.pong(self), Zi _mro _， 找 到 的 是 5 类 实现 的 pong 方法 。 
方法 解析 顺序 不 仅 考 虑 继承 图 ， 还 考虑 子 类 声明 中 列 出 超 类 的 顺序 。 也 就 是 说 ， 如 果 在 





diamond.py 文件 〈 见 示例 12-4) 中 把 D 类 声明 为 class D(C, 


性 就 会 不 一 样 : 先 搜 索 5 类， 再 搜索 B 类 。 


B):, 那么 p 类 的 nr o__ 属 





分 析 类 时 ， 我 经 常 在 交互 式 控制 台中 查看 mro 属性。 示例 12-8 中 是 一 些 常 用 类 的 方法 





搜索 顺序 。 
示例 12-8 查看 儿 个 类 的 _mro_ 属性 


>>> bool. mro_ @ 
(<class 'bool'>, <class 'int'>, <class 'object'>) 
>>> def print_mro(cls): @ 

print(', '.join(c.__name__ for c in cls.__mro 


>>> print_mro(bool) 

bool, int, object 

>>> from frenchdeck2 import FrenchDeck2 
>>> print_mro(FrenchDeck2) © 


ia )) 


FrenchDeck2, MutableSequence, Sequence, Sized, Iterable, Container, object 


>>> import numbers 

>>> print_mro(numbers.Integral) @ 

Integral, Rational, Real, Complex, Number, object 
>>> import io @ 

>>> print_mro(io.BytesI0) 

BytesI0O, _BufferedIOBase, _IOBase, object 

>>> print_mro(io.TextIOWrapper ) 

TextIOWrapper, _TextIOBase, _I0Base, object 


@ bool 从 int Fil object 中 继承 方法 和 属性 。 
© print_mro 函数 使 用 更 紧 竣 的 方式 显示 方法 解析 顺序 。 


© FrenchDeck2 类 的 祖先 包含 collections.abc 模块 中 的 几 个 抽象 基 类 。 


O 这 些 是 numbers 模块 提供 的 几 个 数字 抽象 基 类 。 


O io 模 块 中 有 抽象 基 类 (名称 以 ...Base 后 级 结尾 ) 和 具体 类 ， 如 BytesI0 和 


TextIOWrapper。open() 函数 返回 的 对 象 属于 这 些 类 型 ， 具 
方法 解析 顺序 使 用 C3 算法 计算 。Michele Simionato 的 论文 “The Python 2.3 
Method Resolution Order” (https://www.python.org/download/releases/2.3/mro/ ) 
对 Python 方法 解析 顺序 使 用 的 C3 算法 做 了 权威 论述 。 如 果 对 方法 解析 顺序 
的 细节 感 兴趣 ， 可 以 阅读 延伸 阅读 中 给 出 的 资料 。 不 用 过 分 担心 ，C3 算法 





不 难 理解 ，Simionato 写 道 : 





具体 要 根据 模式 参数 而 定 。 





除非 大 量 使 用 多 重 继承 ， 或 者 继承 关系 不 同 寻常 ， 否 则 不 用 


了 解 C3 算法 ， 因 此 也 不 用 阅读 这 篇 论文 。 


结束 对 方法 解析 顺序 的 讨论 之 前 ， 我 们 来 看 看 图 12-2。 这 幅 图 展示 了 Python 标准 库 中 
GUI 工具 包 Tkinter 复杂 的 多 重 继 承 图 。 研究 这 幅 图 时 ， 要 从 底部 的 Text 类 开始 。 这 个 类 
全 面 实现 了 多 行 可 编辑 文本 小 组 件 ， 它 自身 有 丰富 的 功能 ， 不 过 也 从 其 他 类 继承 了 很 多 方 
法 。 左 边 是 常规 的 UML 类 图 。 右 边 加 入 了 一 些 箭头 ， 表 示 方 法 解析 顺序 。 使 用 示例 12-8 
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中 定义 的 便利 国 数 print_mro 得 到 的 输出 如 下 : 


>>> import tkinter 
>>> print_mro(tkinter. Text) 


Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 
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12-2: (Æ) Tkinter 中 Text 小 组 件 类 及 其 超 类 的 UML AB; (6) 使 用 虚线 箭头 表示 Text._ mro_ 
下 一 节 以 真实 框架 为 例 说 明 多 重 继承 的 优 缺 点 。 


12.3 ”多重 继承 的 真实 应 用 


多 重 继承 能 发 挥 积极 作用 。《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 中 的 适配器 模 
式 用 的 就 是 多 重 继承 ， 因 此 使 用 多 重 继承 肯定 没有 错 〈 那 本 书 中 的 其 他 22 个 设计 模式 都 
使 用 单 继承 ， 因 此 多 重 继承 显然 不 是 灵丹妙药 )。 


在 Python 标准 库 中 ， 最 常 使 用 多 重 继承 的 是 cottecttons.abc 包 。 这 没什么 问题 ， 毕 况 
连 Java 都 支持 接口 的 多 重 继承 ， 而 抽象 基 类 就 是 接口 声明 ， 只 不 过 它 可 以 提供 具体 方法 








的 实现 。” 








在 标准 库 中 ， GUI T A E Tkinter (tkinter 模块 是 Tcl/Tk 的 Python 接口 ，https://docs. 


python.org/3/library/tkinter.html) 把 多 重 继承 用 到 了 极致 。 


是 Tkinter 小 组 件 层次 结构 的 一 部 分 ， 





图 12-3 则 列 出 了 tkinter 基 








图 12-2 中 展示 的 方法 解析 顺序 


包 中 的 全 部 小 组 件 类 


(tkinter.ttk 子 包 中 还 有 一 些 ，https://docs.python.org/3/library/tkinter.ttk.html) 。 





注 5: 前 面 说 过 ，Java 8 也 允许 提供 方法 实现 。 这 个 新 功能 在 官方 的 Java 教程 








oracle.com/javase/tutorial/java/IandI/defaultmethods.html) 。 


P 叫 默认 方法 (https://docs. 
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图 12-3: Tkinter GUI 类 层次 结构 的 UML 简 图 ; 使 用 «mixin» 标记 的 类 通过 多 重 继承 为 其 他 类 提供 
具体 方法 





SIE Tkinter 已 经 20 岁 了 ， 不 能 代表 当下 的 最 佳 实践 。 但 是 ， 它 却 能 表明 当 没 有 
意识 到 多 重 继承 的 缺点 时 ， 程 序 员 是 如 何 使 用 多 重 继承 的 。 下 一 节 讨 论 一 些 好 的 做 法 时 ， 
会 把 Tkinter 作为 反面 教材 。 


来 看 图 12-3 中 的 几 个 类 。 


@ Toplevel: 表示 Tkinter 应 用 程序 中 顶层 窗口 的 类 。 
@ Widget: 窗口 中 所 有 可 见 对 象 的 超 类 。 

© Button: 普通 的 按钮 小 组 件 。 
@ Entry: 单行 可 编辑 文本 字段 。 
O Text: 多 行 可 编辑 文本 字段 。 


这 几 个 类 的 方法 解析 顺序 如 下 ， 这 些 输出 使 用 示例 12-8 中 定义 的 print_mro 函数 得 到 : 


>>> import tkinter 

>>> print_mro(tkinter.Toplevel) 

Toplevel, BaseWidget, Misc, Wm, object 

>>> print_mro(tkinter.Widget) 

Widget, BaseWidget, Misc, Pack, Place, Grid, object 

>>> print_mro(tkinter.Button) 

Button, Widget, BaseWidget, Misc, Pack, Place, Grid, object 

>>> print_mro(tkinter.Entry) 

Entry, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, object 
>>> print_mro(tkinter. Text) 

Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 























下 
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在 类 之 间 的 关系 方面 有 几 点 要 注意 。 


。 Toplevel 是 所 有 图 形 类 中 唯一 没有 继承 Widget AY, 因为 它 是 顶层 窗口 , 行为 不 像 小 组 件 ， 
例如 不 能 依附 到 窗口 或 窗 体 上 。Toplevel 继承 自 Wm， 后 者 提供 直接 访问 宿主 窗口 管理 
器 的 函数 ， 例 如 设置 窗口 标题 和 配置 窗口 边框 。 

。 Widget 直接 继承 自 BaseWidget, 还 继承 了 Pack, Place 和 Grid。 后 三 个 类 是 几何 管理 器 ， 
负责 在 窗口 或 窗 体 中 排 布 小 组 件 。 各 个 类 封装 了 不 同 的 布局 策略 和 小 组 件 位 置 API 

e Button 与 大 多 数 小 组 件 一 样 ， 只 是 Widget 的 子 代 ， 也 间接 继承 Misc， 后 者 为 各 个 小 组 
件 提供 了 大 量 方法 。 

e Entry 是 Widget 和 XView 的 子 类 ， 后 者 实现 横向 滚动 。 

e Text 是 Widget, XView 和 YView 的 子 类 ， 后 者 提供 纵向 滚动 功能 。 


和 i 将 讨论 多 重 继承 一 些 好 的 做 法 ， 看 看 Tkinter 有 没有 践 行 。 
12.4 ”处理 多 重 继承 
pees 我 们 需要 一 种 更 好 的 、 全 新 的 继承 理论 (目前 仍 是 如 此 )。 例 如 ， 继 承 和 实例 化 


(一 种 继承 方式 ) 混 消 了 语 用 (比如 为 了 节省 空间 而 重 构 代码 ) 和 语义 (用途 太 多 
了 ， 比 如 特殊 化 、 普 遍 化 、 形 态 ， 等 等 ) 。 
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Alan Kay 
“The Early History of Smalltalk” 


如 Alan Kay 所 言 ， 继 承 有 很 多 用 途 ， 而 多 重 继承 增加 了 可 选 方案 和 复杂 度 。 使 用 多 重 继承 
容易 得 出 令 人 费解 和 脆弱 的 设计 。 我 们 还 没有 完整 的 理论 ， 下 面 是 避免 把 类 图 搅乱 的 一 些 
建议 。 

1. 把 接口 继承 和 实现 继承 区 分 开 

使 用 多 重 继承 时 ， 一 定 要 明确 一 开始 为 什么 创建 子 类 。 主 要 原因 可 能 有 : 

。 继承 接口 ， 创 建 子 类 型 ， 实 现 “ 是 什么 ”关系 

。 继承 实现 ， 通 过 重用 避免 代码 重复 

其 实 这 两 条 经 常 同时 出 现 ， 不 过 只 要 可 能 ， 一 定 要 明确 意图 。 通 过 继承 重用 代码 是 实现 细 
节 ， 通 常 可 以 换 用 组 合 和 委托 模式 。 而 接口 继承 则 是 框架 的 支柱 。 

2. 使 用 抽象 基 类 显 式 表示 接口 

现代 的 Python 中 ， 如 果 类 的 作用 是 定义 接口 ， 应 该 明确 把 它 定义 为 抽象 基 类 。Python 3.4 
及 以 上 的 版 本 中 ， 我 们 要 创建 abc.ABC 或 其 他 抽象 基 类 的 子 类 (如 果 想 支持 较 旧 的 Python 
版 本 ， 参 见 11.7.1 节 )。 


3. 通过 混入 重用 代码 

如 果 一 个 类 的 作用 是 为 多 个 不 相关 的 子 类 提供 方法 实现 ， 从 而 实现 重用 ， 但 不 体现 “是 什 
么 ”关系 ， 应 该 把 那个 类 明确 地 定义 为 混入 类 (mixin class)。 从 概念 上 讲 ， 混 入 不 定义 
新 类 型 ， 只 是 打包 方法 ， 便 于 重用 。 混 入 类 绝对 不 能 实例 化 ， 而 且 具 体 类 不 能 只 继承 混入 
类 。 混 入 类 应 该 提供 某 方 面 的 特定 行为 ， 只 实现 少量 关系 非常 紧密 的 方法 。 
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4. 在 名 称 中 明确 指明 混入 

因为 在 Python 中 没有 把 类 声明 为 混和 人 的 正规 方式 ， 所 以 强烈 推荐 在 名 称 中 加 入 -Mixin 
后 级 。Tkinter 没有 采纳 这 个 建议 ， 如 果 采 纳 的 话 ，XView 会 变 成 XViewMixin, Pack 会 变 成 
PackMixin， 图 12-3 中 所 有 使 用 «mixin» 标记 的 类 都 应 该 这 么 做 。 

5. 抽象 基 类 可 以 作为 混入 ， 反 过 来 则 不 成 立 

抽象 基 类 可 以 实现 具体 方法 ， 因 此 也 可 以 作为 混和 使用。 不 过 ， 抽 象 基 类 会 定义 类 型 ， 而 
混入 做 不 到 。 此 外 ， 抽 象 基 类 可 以 作为 其 他 类 的 唯一 基 类 ， 而 混入 决 不 能 作为 唯一 的 超 
类 ， 除 非 继承 另 一 个 更 具体 的 混入 一 一 真实 的 代码 很 少 这 样 做 。 

抽象 基 类 有 个 局 限 是 混和 人 没有 的 : 抽象 基 类 中 实现 的 具体 方法 只 能 与 抽象 基 类 及 其 超 类 中 
的 方法 协作 。 这 表明 ， 抽 象 基 类 中 的 具体 方法 只 是 一 种 便利 措施 ， 因 为 这 些 方法 所 做 的 一 
切 ， 用 户 调 用 抽象 基 类 中 的 其 他 方法 也 能 做 到 。 

6. 不 要 子 类 化 多 个 具体 类 

具体 类 可 以 没有 , 或 最 多 只 有 一 个 具体 超 类 。" 也 就 是 说 ， 具 体 类 的 超 类 中 除了 这 一 个 具体 
超 类 之 外 ， 其 余 的 都 是 抽象 基 类 或 混入 。 例 如 ， 在 下 述 代码 中 ， 如 果 Alpha 是 具体 类 ， 那 
么 Beta 和 Gamma 必须 是 抽象 基 类 或 混入 : 


class MyConcreteClass(Alpha, Beta, Gamma): 



























































7. 为 用 户 提供 聚合 类 

如 果 抽 象 基 类 或 混和 的 组 合 对 客户 代码 非常 有 用 ， 那 就 提供 一 个 类 ， 使 用 易于 理解 的 方式 
把 它们 结合 起 来 。Grady Booch 把 这 种 类 称 为 聚合 类 (aggregate class), ' 

例如 ， 下 面 是 tkinter Widget 类 的 完整 代码 (https://hg.python.org/cpython/file/3.4/Lib/tkinter/__ 
init__.py#I2141) : 



































class Widget(BaseWidget, Pack, Place, Grid): 
"""Tnternal class. 


Base class for a widget which can be positioned with the 
geometry managers Pack, Place or Grid.""" 
pass 


Widget 类 的 定义 体 是 空 的 ， 但 是 这 个 类 提供 了 有 用 的 服务 : 把 四 个 超 类 结合 在 一 起 ， 这 样 
需要 创建 新 小 组 件 的 用 户 无 需 记 住 全 部 混入 ， 也 不 用 担心 声明 class 语句 时 有 没有 遵守 特 
定 的 顺序 。Django 中 的 ListView 类 是 更 好 的 例子 ， 稍 后 在 12.5 节 讨 论 。 
































注 6: 在 “水 禽 和 抽象 基 类 ”中 ，Alex Martelli 提 到 Scott Meyer SHJ More Effective C++ 一 书 ， 他 做 得 更 绝 ， 
“将 非 尾 端 类 设计 为 抽象 类 ”( 即 ， 有 具体 类 根本 不 应 该 有 具体 超 类 ) 。 
注 7:“ 如 果 一 个 类 的 结构 主要 继承 自 混 入 ， 自 身 没 有 添加 结构 或 行为 ， 那 么 这 样 的 类 称 为 聚合 类 。”Grady 
Booch et al., Object Oriented Analysis and Design, 3E (Addison-Wesley, 2007), p. 109. 
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8. “优先 使 用 对 象 组 合 ， 而 不 是 类 继承 ” 

这 句 话 引 自 《设计 模式 .可 复 用 面向 对 象 软件 的 基础 》 一 书 ，" 这 是 我 能 提供 的 最 佳 建议 。 
熟悉 继承 之 后 ， 就 太 容易 过 度 使 用 它 了 。 出 于 对 秩序 的 诉求 ， 我 们 喜欢 按 整洁 的 层次 结构 
放置 物品 ， 程 序 员 更 是 乐 此 不 疫 。 

然而 ， 优 先 使 用 组 合 能 让 设计 更 灵活 。 例 如 ， 对 tkinter.Widget 类 来 说 ， 它 可 以 不 从 全 部 
几何 管理 器 中 继承 方法 ， 而 是 在 小 组 件 实例 中 维护 一 个 几何 管理 器 引用 ， 然 后 通过 它 调用 
方法 。 毕 竞 ， 小 组 件 “ 不 是 ”几何 管理 器 ， 但 是 可 以 通过 委托 使 用 相关 的 服务 。 这 样 ， 我 
们 可 以 放心 添加 新 的 几何 管理 器 ， 不 必 担心 会 触动 小 组 件 类 的 层次 结构 ， 也 不 必 担心 名 称 
冲突 。 即 便 是 单 继承 ， 这 个 原则 也 能 提升 灵活 性 ， 因 为 子 类 化 是 一 种 紧 看 合 ， 而 且 较 高 的 
继承 树 容易 倒 。 

组 合 和 委托 可 以 代替 混和 人 ， 把 行为 提供 给 不 同 的 类 ， 但 是 不 能 取代 接口 继承 去 定义 类 型 层 
次 结构 。 


接 下 来 ， 我 们 将 从 这 些 建 议和 人 手 分 析 Tkinter, 


Tkinter 好 的 、 不 好 的 和 令 人 厌恶 的 方面 


记 住 一 点 ， 自 1994 年 发 布 的 Python 1.1 起 ，Tkinter 就 在 标准 库 中 了 。Tkinter 
的 底层 是 Tel 语言 优秀 的 GUI 工具 包 Tk。Tcl/Tk 组 合 原本 不 是 面向 对 象 的 ， 
因此 Tk API 基本 上 就 是 一 堆 函 数 。 尽 管 没有 使 用 面向 对 象 方式 实现 ， 但 是 这 
个 工具 包 的 理念 极 具 面向 对 象 思想 。 
































前 几 节 给 出 的 建议 Tkinter 大 都 没有 采用 ， 不 过 第 7 点 是 个 例外 。 但 是 Tkinter 做 得 并 不 好 ， 
因为 使 用 组 合 模式 把 几何 管理 器 集成 到 Widget 中 更 好 ， 如 第 8 点 所 述 。 

tkinter Widget 类 的 文档 字符 串 开头 说 它 是 “内 部 类 ”。 这 或 许 表 明 Widget 应 该 定义 为 抽 
RIX, Widget 自身 虽然 没有 方法 ， 但 是 它 定义 了 接口 。 它 传达 的 意思 是 :“ 每 个 Tkinter 
小 组 件 都 会 提供 基本 的 方法 (__init_、destroy， 以 及 众多 Tk API 函数 )， 此 外 还 会 提供 
三 个 儿 何 管理 器 中 的 全 部 方法 。” 你 可 以 不 同意 这 是 定义 接口 的 好 方式 〈 太 宽泛 了 ) ， 但 是 
这 样 确 实 能 定义 接口 ，Widget 就 把 接口 “定义 ”为 超 类 接口 的 联合 。 

封装 GUI 应 用 逻辑 的 Tk 类 继承 自 Wm 和 由 sc， 这 两 个 类 既 不 是 抽象 类 ， 也 不 是 混和 人 (Wm 
不 算是 混入 ， 因 为 TopLevel 的 超 类 只 有 它 一 个 )。Misc 类 的 名 称 本 身 明 显 是 代码 异味 。 
Misc 有 100 多 个 方法 ， 而 且 所 有 小 组 件 类 都 继承 它 。 为 什么 每 个 小 组 件 都 要 处 理 剪 切 板 、 
文本 选择 和 计时 器 等 ?我们 可 能 不 能 把 文本 粘贴 到 按钮 上 ， 也 不 能 选择 滚动 条 里 的 文字 。 
Misc 应 该 拆 分 成 几 个 专门 的 混入 类 ， 而 且 不 是 所 有 小 组 件 都 应 该 继承 这 些 混入 。 

说 实在 的 ， 作 为 Tkinter 的 用 户 ， 你 根本 不 用 知道 或 使 用 多 重 继承 。 那 些 都 是 隐藏 起 来 的 
实现 细节 ， 你 在 自己 的 代码 中 只 需 实例 化 或 子 类 化 小 组 件 类 。 不 过 ， 如 果 你 想 查 找 自己 需 



























































注 8:《 设 计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 第 13 页 。 
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要 的 方法 , 在 控制 台中 输入 dir(tkinter.Button)， 你 会 发 现 列 出 了 214 个 属性 ,，” 此 时 你 就 
是 多 重 继承 的 受害 者 。 

除了 这 些 问 题 ，Tkinter 还 是 稳定 而 灵活 的 ， 未 必 那 么 不 堪 。 陈 旧 (和 默认 ) 的 小 组 件 
没有 考虑 现代 的 用 户 界 面 ， 但 是 Python 3.1 (2009 年 发 布 ) 提供 了 tkinter.ttk 包 ， 这 个 
包 提 供 的 小 组 件 很 精美 ， 外 观 同 原生 的 一 样 ， 开 发 出 的 GUI 应 用 也 更 专业 。 此 外 ， 有 些 陈 
旧 的 小 组 件 ， 如 Canvas 和 Text， 功 能 异常 强大 。 只 需 少量 代码 ， 就 能 把 一 个 Canvas 对 象 
打造 成 简单 的 拖 搜 绘图 应 用 。 如 果 你 对 GUI 编程 感 兴 趣 ，Tkinter 和 Tcl/Tk 绝对 值得 一 看 。 


然而 ， 我 们 的 主题 不 是 GUI 编程 ， 而 是 多 重 继 承 的 运用 。 显 式 使 用 混入 类 的 现代 示例 在 
Django 中 可 以 找到 。 


12.5 一 个 现代 示例 : Django 通 用 视图 中 的 混入 


阅读 本 节 不 需要 和 擎 握 Django 知识 。 我 只 是 使 用 这 个 框架 的 一 小 部 分 为 例 说 
明 多 重 继承 的 运用 ， 我 会 尽量 给 出 所 需 的 全 部 背景 知识 ， 而 且 假设 你 使 用 其 
他 语言 或 框架 做 过 服务 器 端 Web 开发 。 













































































TE Django 中 ， 视 图 是 可 调用 的 对 象 ， 它 的 参数 是 表示 HTTP 请 求 的 对 象 ， 返 回 值 是 一 个 
表示 HTTP 响应 的 对 象 。 我 们 要 关注 的 是 这 些 响应 对 象 。 响 应 可 以 是 简单 的 重 定向 ， 没 有 
主体 内 容 ， 也 可 以 是 复杂 的 内 容 ， 如 在 线 商店 的 目录 页 面 ， 它 使 用 HTML 模板 泻 染 ， 列 出 
多 个 货品 ， 而 且 有 购买 按钮 和 详情 页 面 链接 。 

起 初 ，Django 提供 的 是 一 系列 国 数 ， 这 叫 通 用 视图 ， 实 现 常 见 的 用 例 。 例 如 ， 很 多 网 站 
都 需要 展示 搜索 结果 ， 里 面包 含 很 多 项 目 ， 分 成 多 页 ， 而 且 各 个 项 目 会 链接 到 详细 信息 页 
H. Æ Django 中， 这 种 需求 使 用 列表 视图 和 详情 视图 实现 ， 前 者 用 于 渲染 搜索 结果 ， 后 
者 用 于 生成 各 个 项 目的 详情 页 面 。 

然而 ， 最 初 的 通用 视图 是 函数 ， 不 能 扩展 。 如 果 需 求 与 列表 视图 相似 但 不 完全 一 样 ， 那 么 
不 得 不 自己 从 头 实现 。 
Django 1.3 引入 了 基于 类 的 视图 ， 而 且 还 通过 基 类 、 混 入 和 拿 来 即 用 的 具体 类 提供 了 一 些 
通用 视图 类 。 这 些 基 类 和 混入 在 django.views.generic 包 的 base 模块 里 ， 如 图 12-4 所 示 。 
在 这 张 图 中 ， 位 于 顶部 的 两 个 类 ，View 和 TemplateResponseMixin， 负 责 完全 不 同 的 工作 。 









































































































































在 Classy Class-Based Views 网 站 (http://ecbv.co.uk) 中 可 以 深入 研究 这 些 类 ， 
你 可 以 轻松 地 浏览 各 个 视图 类 、 查 看 它们 的 全 部 方法 (继承 的 、 覆 盖 的 和 自己 
添加 的 )、 查 看 图 表 、 浏 览 文档 ， 以 及 跳 转 到 GitHub 中 的 源码 (https://github. 


com/django/django/tree/master/django/views/generic ) 。 




















注 9: 目前 的 版 本 中 只 有 209 个 属性 。 一 一 编者 注 
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TemplateResponseMixin 
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__init__ 
as view render_to_response 
dispatch get_template_names 


http_method_not_allowed 
options 








ContextMixin 
pattern_name get_context_data 


permanent 


url TemplateView 
query_string content_type 
delete response_class 


get template_name 
get_redirect_url 









head 
patch 
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put 











12-4; django.views.generic.base 模块 的 UML 类 图 

















View 是 所 有 视图 (可 能 是 个 抽象 基 类 ) 的 基 类 ， 提 供 核心 功能 ， 如 dispatch 方法 。 这 个 
方法 委托 具体 子 类 实现 的 处 理 方法 (handler), get, head, post 等 ， 处 理 不 同 的 HTTP 
动词 。"RedirectView 类 只 继承 View， 可 以 看 到 ， 它 实现 了 get, head, post 等 方法 。 




















View 的 具体 子 类 应 该 实现 处 理 方法 ， 但 它们 为 什么 不 在 View 接口 中 呢 ? 原因 是 : 

















子 类 只 


需 实现 它们 想 支持 的 处 理 方法 。TemplateView 只 用 于 显示 内 容 ， 因 此 它 只 实现 了 get 方法 。 




















如 果 把 HTTP POST 请 求 发 给 TemplateView， 经 继承 的 View.dispatch 方法 检查 ， 


它 没有 


post 处 理 方法 ， 因 此 会 返回 HTTP 405 Method Not Allowed (不 允许 使 用 的 方法 ) mae, | 


TemplateResponseMixin 提供 的 功能 只 针对 需要 使 用 模板 的 视图 。 例 如 ，RedirectView 
没有 主体 内 容 ， 因 此 它 不 需要 模板 ， 也 就 没有 继承 这 个 混入 。TemplateResponseMixin 














为 TemplateView Fil django.views.generic 包 中 定义 的 使 用 模板 泻 染 的 其 他 视 











(例如 


注 10: Django 程序 员 知道 ，as_view 类 方法 是 View 接口 最 为 重要 的 部 分 ， 不 过 它 与 这 里 讨论 的 话题 无 关 。 
TELL: 如 果 深 入 了 解 设计 模式 ， 你 会 发 现 Django 的 分 派 机 制 是 动态 版 模板 方法 模式 (https://en.wikipedia. 
org/wiki/Template_method_pattern) 。 之 所 以 说 是 动态 的 ,是 因为 View 类 不 强制 子 类 实现 所 有 处 理 方法 ， 



































而 是 让 dispatch 方法 在 运行 时 检查 有 没有 针对 特定 请 求 的 具体 处 理 方法 。 














ListView、DetailView， 等 等 ) 提供 行为 。 图 12-5 是 django.views.generic. list 模块 和 部 


分 base 模块 的 图 解 。 
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12-5; django.views.generic. list 模块 的 UML 类 图 ;图 中 属于 base 模块 的 三 个 类 没有 详细 说 
明 (参见 图 12-4) ;ListView 类 没有 方法 和 属性 ， 它 是 一 个 聚合 类 


对 Django 用 户 来 说 ， 在 图 12-5 中 ， 最 重要 的 类 是 Listview。 这 是 一 个 聚合 类 ， 不 含 任何 
代码 EMA ART IEF). ListView 实例 有 个 object_list 属性 ， 模 板 会 运 代 
它 显示 页 面 的 内 容 ， 通 常 是 数据 库 查 询 返 回 的 多 个 对 象 。 生 成 这 个 可 迭代 对 象 列表 的 相关 
功能 都 由 MultipleObjectmixin 提供 。 这 个 混和 还 提供 了 复杂 的 分 页 逻辑 ， 即 在 一 页 中 显 
示 部 分 结果 ， 并 提供 指向 其 他 页 面 的 链接 。 

假设 你 想 创建 一 个 使 用 模板 演 染 的 视图 ， 但 是 会 生成 一 组 ISON 格式 的 对 象 ， 此 时 用 得 到 
BaseListView 类 。 这 个 类 提供 了 易于 使 用 的 扩展 点 ， 把 View 和 MuLtipLe0bjectMixin 的 功 
能 整合 在 一 起 ， 避 免 了 模板 机 制 的 开销 。 

与 Tkinter 相 比 ，Django 基于 类 的 视图 API 是 多 重 继承 更 好 的 示例 。 尤 其 是 ，Dijango 的 混 
入 类 易于 理解 : 各 个 混入 的 目的 明确 ， 而 且 名 称 的 后 缀 都 是 .. .Mixin。 

Django 用 户 还 没完 全 拥抱 基于 美的 视图 。 很 多 人 确实 在 使 用 ， 但 是 用 法 有 限 ， 把 它们 当 
成 黑 盒 ， 需 要 新 功能 时 ， 很 多 Django 程序 员 依 然 选择 编写 单 块 视图 函数 ， 负 责 处 理 所 有 
事务 ， 而 不 尝试 重用 基 视 图 和 混入 。 

学 习 基 于 类 的 视图 和 根据 应 用 需求 扩展 它们 确实 需要 一 些 时 间 ， 不 过 我 觉得 这 是 值得 的 : 
基于 类 的 视图 能 避免 大 量 样板 代码 ， 便 于 重用 ， 还 能 增进 团队 交流 一 一 例如 ， 为 模板 和 传 
给 模板 上 下 文 的 变量 定义 标准 的 名 称 。 基 于 类 的 视图 把 Django 视图 带 到 了 正轨 上 。 

我 们 对 多 重 继承 和 混入 类 的 讨论 到 此 结束 。 
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12.6 本章 小 结 


本 章 对 继承 的 讨论 先 从 子 类 化 内 置 类 型 引起 的 问题 谈 起 : 内 置 类 型 的 原生 方法 使 用 C 语言 
实现 ， 不 会 调用 子 类 中 覆盖 的 方法 ， 不 过 有 极 少数 例外 。 因 此 ， 需 要 定制 list, dict 或 
str 类 型 时 ， 子 类 化 UserList, UserDict 或 UserString 更 简单 。 这 些 类 在 collections 模 
H (https://docs.python.org/3/library/collections.html) 中 定义 ， 它 们 其 实 是 对 内 置 类 型 的 包 
装 ， 会 把 操作 委托 给 内 置 类 型 一 一 这 是 标准 库 中 优先 选择 组 合 而 不 使 用 继承 的 三 个 例子 。 
如 果 所 需 的 行为 与 内 置 类 型 区 别 很 大 ， 或 许 更 容易 的 做 法 是 ， 子 类 化 collections. abe 模块 
(https://docs.python.org/3/library/collections.abe.html) 中 相应 的 抽象 基 类 ， 然 后 自己 实现 。 


本 章 余 下 的 内 容 着 重 探讨 了 多 重 继承 这 把 双 刃 剑 。 首 先 ， 我 们 说 明了 mro KREP 
藏 的 方法 解析 顺序 ， 有 了 这 一 机 制 ， 继 承 方法 的 名 称 不 再 会 发 生 冲 突 。 我 们 还 提 到 ， 内 
置 的 super() 函数 会 按照 _mro_ 属性 给 出 的 顺序 调用 超 类 的 方法 。 然 后 ， 我 们 分 析 了 
Python 标准 库 中 GUI 工具 包 Tkinter 对 多 重 继承 的 运用 。Tkinter 不 能 代表 当前 的 最 佳 实 
践 ， 因 此 我 们 讨论 了 处 理 多 重 继承 的 一 些 方式 ， 例 如 谨慎 使 用 混入 类 ， 以 及 借助 组 合 模式 
彻底 避免 使 用 多 重 继承 。 指 出 Tkinter 对 多 重 继承 的 使 用 已 经 到 了 滥用 的 程度 后 ， 我 们 在 
最 后 一 市 分 析 了 Django 基于 类 的 视图 ， 了 解 了 它们 的 核心 层次 结构 。 我 觉得 这 更 好 地 利 
用 了 混入 。 

Lennart Regebro (一 位 经 验 非常 丰富 的 Python 程序 员 ， 也 是 本 书 的 技术 审 校 之 一 ) 发 现 
Django 通过 混入 设计 的 视图 层次 结构 有 点 混乱 。 但 是 他 又 写 道 : 


多 重 继承 的 危害 和 缺点 被 放大 了 。 我 从 来 不 觉得 它 是 什么 大 问题 。 


总 之 ， 每 个 人 对 如 何 使 用 以 及 要 不 要 在 自己 的 项 目 中 使 用 多 重 继承 都 有 自己 的 观点 。 但 
是 ， 我 们 往往 没 得 选择 ， 因 为 我 们 必须 使 用 的 框架 有 它们 自己 的 选择 。 


12.7 延伸 阅读 


使 用 抽象 基 类 时 ， 多 重 继承 很 常见 ， 而 且 实 际 上 也 是 不 可 避免 的 ， 因 为 最 基本 的 集合 抽象 
ZEAE (Sequence, Mapping 和 Set) 都 扩展 多 个 抽象 基 类 。cotLLections.abc 的 源码 (Lib/_ 
collections_abc.py, https://hg.python.org/cpython/file/3.4/Lib/_collections_abc.py) 是 抽象 基 类 
使 用 多 重 继承 的 范例 一 一 其 中 很 多 还 是 混入 类 。 

Raymond Hettinger 写 的 文章 “Python's super() considered super!” (https://rhettinger.wordpress. 
com/2011/05/26/super-considered-super) ， 从 积极 的 角度 解说 了 Python 的 super 和 多 重 继承 的 
运作 原理 。 这 篇 文章 是 对 James Knight 的 “Python's Super is nifty, but you can’t use it” (以 前 题 
为 “Python's Super Considered Harmful”, https://fuhm.net/super-harmful/) 一 文 作出 的 回应 。 


尽管 这 两 篇 文章 的 题目 中 提 到 了 内 置 的 super 函数 ， 但 它 不 是 真正 的 问题 一 一 Python 3 中 
的 super 函数 没有 Python 2 中 那么 令 人 讨厌 了 。 真 正 的 问题 是 多 重 继承 ， 它 天 生 复 杂 ， 难 
以 处 理 。Michele Simionato 不 再 批评 这 一 点 ， 他 在 “Setting Multiple Inheritance Straight” — 
X (http://www.artima.com/weblogs/viewpost.jsp?thread=246488) 中 给 出 了 解决 方案 : 他 实现 了 
性 状 (trait)， 这 是 一 种 受 限 的 混入 ， 源 自 Self 语言。Simionato 写 了 一 系列 具有 启发 性 的 博 
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客 文章 ， 对 Python 的 多 重 继承 进行 了 探讨 ， 包 括 “The wonders of cooperative inheritance, or 
using super in Python 3” (http:/Avww.artima.com/weblogs/viewpost.jsp?thread=281127), “Mixins 
considered harmful” 第 一 部 分 (http://Awww.artima.com/weblogs/viewpost.jsp?thread=246341) 和 
第 二 部 分 (http:/Avww.artima.com/weblogs/viewpost.jsp?thread=246483), LAS “Things to Know 
About eae Super” 第 一 部 分 (http://www.artima.com/weblogs/viewpost.jsp?thread=236275 ) , 
第 二 部 分 (http:/www.artima.com/weblogs/viewpostjsp?thread=236278) 和 第 三 部 分 (http:/ 
www.artima.com/weblogs/viewpostjsp?thread=237121)。 最 早 的 文章 使 用 Python 2 的 super 名 
法 ， 不 过 依然 值得 一 读 。 


我 读 过 Grady Booch 写 的 《面向 对 象 分 析 与 设计 (第 3 版 )》， 强 烈 推荐 给 你 ， 这 是 面向 对 
象 思维 的 通用 入 门 书 ， 与 具体 的 编程 语言 无 关 。 很 少 有 书 能 这 样 不 带 偏见 地 讨论 多 重 继承 。 



































想 想 哪些 类 是 真 


大 多 数 程序 员 编 写 应 用 程序 而 不 开发 框架 。 即 便 是 开发 框架 的 那些 人 ， 多 数 时 候 (或 
大 多 数 时 候 ) 也 是 在 编写 应 用 程序 。 编 写 应 用 程序 时 ， 我 们 通常 不 用 设计 类 的 层次 结 
构 。 我 们 至 多 会 编写 子 类 、 继 承 抽 象 基 类 或 框架 提供 的 其 他 类 。 作 为 应 用 程序 开发 者 ， 
我 们 极 少 需要 编写 作为 其 他 类 的 超 类 的 类 。 我 们 自己 编写 的 类 几乎 都 是 末端 类 (Fp HE 
承 树 的 叶子 ) 。 


如 果 作 为 应 用 程序 开发 者 ， 你 发 现 自 己 在 构建 多 层 类 层次 结构 ， 可 能 是 发 生 了 下 述 事 
件 中 的 一 个 或 多 个 。 


。 你 在 重新 发 明 轮 子 。 去 找 框架 或 库 ， 它 们 提供 的 组 件 可 以 在 应 用 程序 中 重用 。 
。 你 使 用 的 框架 设计 不 良 。 去 寻找 替代 品 。 

。 你 在 过 度 设计 。 记 住 要 遵守 KISS 原则 。 

。 你 厌烦 了 编写 应 用 程序 ， 决 定 新 造 一 个 框架 。 茶 喜 ， 视 你 好 运 | 


这 些 事情 你 可 能 都 会 遇 到 : 你 厌 伴 了， 决定 重新 发 明 轮 子 ， 自 己 构建 设计 过 度 和 不 良 
的 框架 ， 因 此 不 得 不 编写 一 个 又 一 个 类 去 解决 鸡毛 苏 皮 的 小 事 。 项 望 你 能 乐 在 其 中 ， 
至 少 得 到 应 有 的 回报 。 


内 置 类 型 的 不 当 行为 是 缺陷 还 是 特性 


内 置 的 dict、list fe str 类 型 是 Python 的 底层 基础 ， 因 此 速度 必须 快 ， 与 这 些 内 置 类 
型 有 关 的 任何 性 能 问题 几乎 者 会 对 其 他 所 有 代码 产生 重大 影响 。 于 是 ，CPython 走 了 
捷径 ， 故 意 让 内 置 类 型 的 方法 行为 不 当 ， 即 不 调用 被 子 类 和 窗 盖 的 方法 。 解 决 这 一 困境 
的 可 能 方式 之 一 是 ， 为 这 些 类 型 分 别提 供 两 种 实现 : 一 种 供 内 部 使 用 ， 为 解释 器 做 了 
优化 ; 另 一 种 供 外 部 使 用 ， 便 于 扩展 。 

但 是 等 等 ， 我 们 已 经 拥有 这 些 了 : UserDict, UserList 和 UserString 虽然 没有 内 置 类 


型 的 速度 快 ， 但 是 易于 扩展 。CPython 采用 的 这 种 务实 方式 意味 着 ， 我 们 也 要 在 自己 
的 应 用 程序 中 使 用 做 了 优化 但 是 难以 子 类 化 的 实现 。 这 是 合理 的 ， 因 为 我 们 每 天 都 使 
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用 dict, list fe str, 但 是 很 少 需 要 定制 映射 、 列 表 或 字符 串 。 我 们 只 需 知道 其 中 涉 
及 的 取 会 。 

其 他 语言 对 继承 的 支持 

“面向 对 象 ” 这 个 术语 是 Alan Kay 发 明 的 ， 而 Smalltalk 只 支持 单 继承 ， 不 过 有 些 派生 
版 以 不 同 的 方式 支持 多 重 继承 ， 例 如 现代 的 Squeak 和 Smalltalk 方言 Pharo 支持 性 状 
(trait) 一 一 这 是 实现 混入 类 的 语言 结构 ， 而 且 能 避免 多 重 继承 的 一 些 问题 。 








CH 是 第 一 门 实现 多 重 继承 的 流行 语言 ， 但 是 这 一 功能 被 滥用 了 ， 因 此 意欲 取代 CH 
的 Java 不 支持 多 重 继承 ( 即 没有 混入 类 )。 不 过 ，Java 8 引入 了 默认 方法 ， 这 使 得 接 
口 与 C++ 和 Python 用 于 定义 接口 的 抽象 类 十 分 相似 。 但 是 它们 之 间 有 个 关键 的 区 别 : 
Java 的 接口 没有 状态 。Java 之 后 ， 使 用 最 广泛 的 JVM 语言 要 数 Scala T, RERIT 
性 状 。 支 持 性 状 的 其 他 语言 还 有 最 新 稳定 版 PHP 和 Groovy， 以 及 正在 开发 的 Rust 和 
Perl 6。 因 此 可 以 说 ， 性 状 是 目前 的 趋势 。 


Ruby 对 多 重 继承 的 态度 很 明确 : 对 其 不 支持 ， 但 是 引入 了 混入 。Ruby 类 的 定义 体 中 
可 以 包含 模块 ， 这 样 模块 中 定义 的 方法 就 变 成 了 类 实现 的 一 部 分 。 这 是 “纯粹 ”的 混 
入 ， 不 涉及 继承 ， 因 此 Ruby 混入 显然 不 会 影响 所 在 类 的 类 型 。 这 种 方式 凸显 了 混入 
的 优点 ， 避 免 了 很 多 常见 问题 。 


最 近 广 受 瞩目 的 两 门 语言 一 一 Go 和 Julia 一 一 对 继承 的 支持 极其 有 限 。Go 完全 不 支持 
继承 ， 但 是 它 实现 的 接口 与 静态 鸭子 类 型 相似 (详情 参见 第 11 章 的 “杂谈 ”)。Julia 
m “X” (class) 这 个 术语 ， 只 接受 “类 型 ”(type)。Julia 有 类 型 层次 结构 ， 但 是 子 
类 型 不 能 继承 结构 ， 只 能 继承 行为 ， 而 且 只 能 为 抽象 类 型 创建 子 类 型 。 此 外 ，JjJulia 的 
方法 使 用 多 重 分 派 ， 这 是 7.8.2 节 所 述 机 制 的 高 级 形式 。 
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有 些 事情 让 我 不 安 ， 
择 ， 因 为 我 见 过 太 多 


正确 重 载运 算 竺 


比如 运算 符 重 载 。 我 决定 不 支持 运算 符 重 载 ， 这 完全 是 个 人 选 
C++ PRA | 





James Gosling 
Java 之 父 


运算 符 重 载 的 作用 是 让 用 户 定义 的 对 象 使 用 中 缀 运算 符 (如 + 和 1) 或 一 元 运算 符 〈 如 - 
和 ~)。 说 得 宽泛 一 些 ， 在 Python 中， 函数 调用 (())、 属 性 访问 (.) 和 元 素 访问 /切片 





([]) 也 是 运算 符 ， 不 过 本 章 只 讨论 一 元 运算 符 和 中 绥 运 算 符 。 
在 1.2.1 市， 我 们 为 Vector 类 简略 实现 了 几 个 运算 符 。 示 例 1-2 FAHY add F mul A 











法 是 为 了 展示 如 何 使 用 特殊 方法 重 载运 算 符 ， 不 过 有 些小 问题 被 我 们 忽视 了 。 此 外 ， 在 示 








例 9-2 中 ， 我 们 定义 的 Vector2d._eq__ 方法 认为 Vector(3,，4) == [3, 4] 是 真 的 (True), 
这 可 能 并 不 合理 。 本 章 会 解决 这 些 问 题 。 


在 接 下 来 的 几 闻 ， 我 们 将 讨论 : 


。 Python 如 何 处 理 中 绥 运 算 符 中 不 同类 型 的 操作 数 
。 使 用 了 鸭子 类 型 或 显 式 类 型 检查 处 到 








。 中 组 运算 符 如何 表 明 
。 众多 比较 运算 符 (如 


自己 无 法 处 型 


==, >, <=, 





不 同类 型 的 操作 数 
操作 数 





等 等 ) 的 特殊 行为 








。 增 量 赋值 运算 符 Can +=) 的 默认 处 理 方式 和 重 载 方式 














注 1: 摘自 “The C Family of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, and James Gosling” 一 文 


(http://www.gotw.ca/publications/c_family_interview.htm) 。 
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13.1 运算 符 重 载 基础 


在 某 些 圈子 中 ， 运 算 符 重 载 的 名 声 并 不 好 。 这 个 语言 特性 可 能 (已 经 ) 被 滥用 ， 让 程序 员 
困惑 ， 导 致 缺 陷 和 意料 之 外 的 性 能 上 瓶颈。 但是， 如 果 使 用 得 当 ，API 会 变 得 好 用 ， 代 码 会 
变 得 易于 阅读 。Python 施加 了 一 些 限制 ， 做 好 了 灵活 性 、 可 用 性 和 安全 性 方面 的 平衡 : 

。 不 能 重 载 内 置 类 型 的 运算 符 

。 不 能 新 建 运 算 符 ， 只 能 重 载 现 有 的 

。 某 些 运算 符 不 能 重 载 一 一 Ls、and、or 和 not (不 过 位 运算 符 &、| 和 ~ 可以) 

第 10 章 已 经 为 Vector 定义 了 一 个 中 组 运算 符 ， 即 ==， 这 个 运算 符 由 eq 方法 支持 。 本 
章 将 改进 eq 方法 的 实现 ， 更 好 地 处 理 不 是 Vector 实例 的 操作 数 。 然 而 ， 在 运算 符 重 
载 方面 ， 众 多 比较 运算 符 (==、!=、>、<、>=、<=) 是 特例 ， 因 此 我 们 首先 将 在 Vector 中 
重 载 四 个 算术 运算 符 : 一 元 运算 符 - 和 +， 以 及 中 绥 运 算 符 + 和 *。 

先 从 最 简单 的 入 手 : 一 元 运算 符 。 


— ġa -fe 
13.2 一 元 运算 符 
在 Python 语言 参考 手册 中 ,“6.5. Unary arithmetic and bitwise operations” 一 节 ” (https://docs. 
y y P P 
python.org/3/reference/expressions.html#unary-arithmetic-and-bitwise-operations) 列 出 了 三 个 
一 元 运算 符 。 下 面 是 这 三 个 运算 符 和 对 应 的 特殊 方法 。 
- (__neg_) 
元 取 负 算术 运算 符 。 如 果 x 是 -2， 那 么 -x == 
+ (__pos__) 
元 取 正 算术 运算 符 。 通 常 ，x == +x， 但 也 有 一 些 例 外 。 如 果 好 奇 ， 请 阅读 “x 和 +x 
何 时 不 相等 ”附注 栏 。 
~ (__invert__) 
对 整数 按 位 取 反 ， 定 义 为 ~x == -(x+1)。 如 果 x 是 2， 那 么 ~x == -3。 


Python 语言 参考 手册 中 的 “Data Model” 一 章 (https://docs.python.org/3/reference/datamodel. 
html#object__neg__) 还 把 内 置 的 abs(...) 国 数列 为 一 元 运算 符 。 它 对 应 的 特殊 方法 是 
—abs_, M 1.2.1 市 起 已 经 见 过 多 次 。 

支持 一 元 运算 符 很 简单 ， 只 需 实现 相应 的 特殊 方法 。 这 些 特殊 方法 只 有 一 个 参数 ，self。 
然后 ， 使 用 符合 所 在 类 的 逻辑 实现 。 不 过 ， 要 遵守 运算 符 的 一 个 基本 规则 ， 始终 返回 一 个 
新 对 象 。 也 就 是 说 ， 不 能 修改 seLf， 要 创建 并 返回 合适 类 型 的 新 实例 。 

对 - A+ RL, BARAT AES self 同属 一 类 的 实例 。 多 数 时 候 ，+ 最 好 返回 self 的 副本 。 
abs(...) 的 结果 应 该 是 一 个 标量 。 但 是 对 ~ 来 说 ， 很 难说 什么 结果 是 合理 的 ， 因 为 可 能 不 


































































































注 2: 现 有 版 本 是 6.6 市 ， 而 不 是 6.5 节 。 一 一 编者 注 
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是 处 理 整数 的 位 ， 例 如 在 ORM F, SQL WHERE 子 句 应 该 返回 反 集 。 


如 前 所 述 ， 我 们 将 为 第 10 章 定义 的 Vector 类 实现 几 个 新 运算 符 。 示 例 13-1 列 出 了 示例 
10-16 实现 的 _abs 方法， 以 及 新 增加 的 _neg FU __pos__ 一 元 运算 符 方法 。 








示例 13-1 vector_v6.py: 把 一 元 运算 符 - 和 + 添加 到 示例 10-16 中 
def _abs_ (self): 
return math.sqrt(sum(x * x for x in self)) 


def __neg__ (self): 
return Vector(-x for x in self) @ 


def __pos_ (self): 
return Vector(self) @ 


@ 为 了 计算 -v， 构 建 一 个 新 Vector 实例 ， 把 self 的 每 个 分 量 都 取 反 。 

OA 为 了 计算 +v, 构建 一 个 新 Vector 实例 ， 传 人 self 的 各 个 分 量 。 

还 记得 吗 ? Vector 实例 是 可 选 代 的 对 象 ， 而 且 vector._intt_ 的 参数 是 一 个 可 选 代 对 
象 ， 因 此 _neg_ 和 _ pos“ 的 实现 短小 精 悍 。 

我 们 不 打算 实现 _invert “方法 ， 因 此 如 果 用 户 在 Vector 实例 上 尝试 计算 ~v, Python 会 
抛 出 TypeError， 而 且 输 出 明确 的 错误 消息 ,“bad operand type for unary ~: 'Vector'”, 

下 述 附注 栏 讨 论 一 个 奇怪 的 问题 ， 能 增长 你 的 + 一 元 运算 符 知 识 。 接 下 来 的 重要 话题 是 : 
重 载 向 量 加 法 运算 符 + ( 见 13.3 节 )。 
































kml 





x 和 +x 何 时 不 相等 


每 个 人 者 觉得 x == 4x, HLA Python 中， 几乎 所 有 情况 下 都 是 这 样 。 但 是 ， 我 在 标 
准 库 中 找到 两 例 x != +x 的 情况 。 


第 一 例 与 decimal.Decimal 类 有 关 。 如 果 Xx 是 Decimal 实例 ， 在 算术 运算 的 上 下 文中 创 
建 ， 然 后 在 不 同 的 上 下 文中 计算 +x， 那么 Xx != +x, Pie, x 所 在 的 上 下 文 使 用 某 个 精 
度 ， 而 计算 ft 时 ， 精 度 变 了 ， 如 示例 13-2 所 示 。 


示例 13-2 算术 运算 上 下 文 的 精度 变化 可 能 导致 x 不 等 于 tx 
>>> import decimal 
>>> ctx = decimal.getcontext() @ 
>>> ctx.prec = 40 @ 
>>> one_third = decimal.Decimal('1') / decimal.Decimal('3') © 
>>> one_third @ 
Decimal('0.3333333333333333333333333333333333333333') 


>>> one_third == +one_third 
True 

>>> ctx.prec = 28 O 

>>> one_third == +one_third @ 
False 


>>> +one_third 
Decimal( '0.3333333333333333333333333333') 
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@ 获取 当前 全 局 算术 运算 的 上 下 文 引 用 。 

O 把 算术 运算 上 下 文 的 精度 设 为 40。 

© 使 用 当前 精度 计算 1/3。 

O 查看 结果 ， 小 数 点 后 有 40 个 数字 。 

加 one_third == +one_third 返回 True。 

O 把 精度 降低 为 28， 这 是 Python 3.4 X Decimal 算术 运算 设 定 的 默认 精度 。 
@ 现在 ，one_third == +one_third i& ® False, 

O # A +one_third, RAGA 28 个 数字 。 


虽然 每 个 +one_third 表达 式 都 会 使 用 one_third 的 值 创建 一 个 新 Decimal 实例 ， 但 是 
会 使 用 当前 算术 运算 上 下 文 的 精度 。 

x != +X 的 第 二 例 在 collections.Counter 的 文档 中 (https://docs.python.org/3/library/ 
collections.html#collections.Counter) 。Counter 类 实现 了 几 个 算术 运算 符 ， 例 如 中 组 
运算 符 +， 作 用 是 把 两 个 Counter 实例 的 计数 器 加 在 一 起 。 然 而 ， 从 实用 角度 出 发 ， 
Counter 相 加 时 ， 负 值 和 零 值 计数 会 从 结果 中 剔除 。 而 一 元 运算 符 + 等 同 于 加 上 一 个 空 
Counter， 因 此 它 产 生 一 个 新 的 Counter 且 仅 保留 大 于 零 的 计数 器 。 见 示例 13-3, 


示例 13-3 ”一 元 运算 符 + 得 到 一 个 新 Counter 实例 ， 但 是 没有 零 值 和 人 负 值 计数 器 
>>> ct = Counter('abracadabra' ) 
>>> ct 
Counter({'a': 5, 'r': 2, 'b': 2, 'd': 1, “es 1}) 


>>> ct['r'] = -3 

>>> ct['d'] = 0 

>>> ct 

Counter({'a': 5, 'b': 2, 'c': 1, 'd': 0, 'r': -3}) 
>>> +ct 


Counter({'a': 5, 'b': 2, 'c': 1}) 


下 面 回 归 正 题 。 








13.3 重 载 向量 加 法 运算 符 + 
Vector 类 是 序列 类 型 ， 按 照 “Data Model” 一 章 中 的 “3.3.6. Emulating container 
types” — “i (https://docs.python.org/3/reference/datamodel.html#emulating- 
container-types) 所 说 ， 序 列 应 该 支持 + 运算 符 (用 于 拼接 )， 以 及 * 运算 符 
(用 于 重复 复制 )。 然 而 ， 我 们 将 使 用 向 量 数学 运算 实现 + 和 * 运算 符 。 这 么 做 
更 难 一 些 ， 但 是 对 Vector 类 型 来 说 更 有 意义 。 





























两 个 欧 几 里 得 向 量 加 在 一 起 得 到 的 是 一 个 新 向 量 ， 它 的 各 个 分 量 是 两 个 向 量 中 相应 的 分 量 
之 和 。 比 如 说 : 








注 3: 应 该 在 最 前 面 加 一 行 : >>> from collections import Counter, 一 一 编者 注 
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>>> v1 = Vector([3, 4, 5]) 

>>> v2 = Vector([6, 7, 8]) 

>>> vi + v2 

Vector([9.0, 11.0, 13.0]) 

>>> v1 + v2 == Vector([3+6, 4+7, 5+8]) 
True 


如 果 堂 试 把 两 个 不 同 长 度 的 Vector 实例 加 在 一 起 会 怎样 ”此 时 可 以 抛 出 错误 ,但 是 根据 实 
际 运用 情况 (例如 信息 检索 )， 最 好 使 用 零 填充 较 短 的 那个 向 量 。 我 们 想 要 的 效果 是 这 样 : 
>>> v1 = Vector([3, 4, 5, 6]) 
>>> v3 = Vector([1, 2]) 


>>> V1 + v3 
Vector([4.0, 6.0, 5.0, 6.0]) 


确定 这 些 基本 的 要 求 之 后 ，__add_ 方法 的 实现 短小 精 悍 ， 如 示例 13-4 所 示 。 








示例 13-4 Vector. add 方法 , 第 1 版 
# 在 Vector 类 中 定义 
def _add_ (self, other): 


pairs = itertools.zip_longest(self, other, fillvalue=0.0) # @ 
return Vector(a + b for a, b in pairs) #@ 


Q pairs 是 个 生成 器 ， 它 会 生成 (a，b) 形式 的 元 组 ， 其 中 ak self, bX other, 4 
有 果 self 和 other 的 长 度 不 同 ， 使 用 fillvalue 填充 较 短 的 那个 可 友 代 对 象 。 
O 构建 一 个 新 Vector 实例 ， 使 用 生成 器 表达 式 计算 pairs 中 各 个 元 素 的 和 。 


EE, add 返回 一 个 新 Vector 实例 ， 而 没有 影响 self 或 other, 



































实现 一 元 运算 符 和 中 组 运算 符 的 特殊 方法 一 定 不 能 修改 操作 数 。 使 用 这 些 运 
算 符 的 表达 式 期 待 结 果 是 新 对 象 。 只 有 增 量 赋值 表达 式 可 能 会 修改 第 一 个 操 
作 数 (self), ÆJ 13.6 节 。 











示例 13-4 中 的 实现 方式 可 以 把 Vector 加 到 Vector2d 上 ， 还 可 以 把 Vector 加 到 元 组 或 任何 
生成 数字 的 可 迭代 对 象 上 ， 如 示例 13-5 所 示 。 


示例 13-5 第 1 版 vector._ add “方法 也 支持 Vector 之 外 的 对 象 
>>> v1 = Vector([3, 4, 5]) 
>>> v1 + (10, 20, 30) 
Vector([13.0, 24.0, 35.0]) 
>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 
>>> v1 + v2d 
Vector([4.0, 6.0, 5.0]) 


示例 13-5 中 的 两 个 加 法 都 能 如 我 们 所 期 待 的 那样 计算 ,这 是 因为 _add_ 使 用 了 zip_ 


Longest(...)， 它 能 处 理 任何 可 返 代 对 象 ， 而 且 构建 新 Vector 实例 的 生成 器 表达 式 仅仅 是 把 
zip_longest(...) 生成 的 值 对 相 加 (a + b)， 因 此 可 以 使 用 任何 生成 数字 元 素 的 可 迭代 对 象 。 
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然而 ， 如 果 对 调 操作 数 〈 见 示例 13-6) ， 混 合 类 型 的 加 法 就 会 失败 。 
示例 13-6 ”如 果 左 操作 数 是 Vector 之 外 的 对 象 ， 第 一 版 vector .add “方法 无 法 处 理 


>>> v1 = Vector([3, 4, 5]) 

>>> (10, 20, 30) + v1 

Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 


TypeError: can only concatenate tuple (not "Vector") to tuple 


>>> from vector2d_v3 import Vector2d 

>>> v2d = Vector2d(1, 2) 

>>> v2d + v1 

Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 


TypeError: unsupported operand type(s) for +: 'Vector2d' and 'Vector' 


为 了 支持 涉及 不 同类 型 的 运算 ，Python 为 中 组 运算 符 特殊 方法 提供 了 特殊 的 分 派 机 制 。 对 


表达 式 a + b 来 说 ， 解 释 器 会 执行 以 下 儿 步 操作 (IL 
(1) 如果 a 有 add 方法， 而 且 返 回 值 























不 是 NotImplemented 














DUR aA ad 方法 ,或 者 调用 _add_ 方法 返 

















_radd_ 方法， 如 果 有 ， 而 且 没 有 返回 NotImplemented, 
(3) 如 果 b 没 有 _radd_ 方法, 或 者 调用 _radd_ 方法 返 
并 在 错误 消息 中 指明 操作 数 类 型 不 支持 。 




















图 13-1)。 


， 调 用 a._add_(b)， 然 后 返 
回 NotImpLemented， 检 查 b 有 没有 
调用 b._radd_(a)， 然后 返回 结果 。 
[a] NotImplemented, HAH TypeError, 


回 结果 。 





















获取 a.__add 
__(b) 的 结果 






NotImple- 
mented 吗 ? 





获取 b.__radd 
__(a) 的 结果 


NotImple- 
mented 吗 ? 

















抛 出 TypeError 














13-1; 使 用 _add_ 和 _ radd_ 计算 a + b 的 流程 图 
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radd_ 是 _add_ 的 “反射 ”(reflected) 版 本 或 “ 反 向 ”(reversed) 版 本 。 我 喜欢 把 它 叫 
作 “ 反 向 ”特殊 方法 。 本 书 的 三 位 技术 审 校 ，Alex、Anna 和 Leo 告诉 我 ， 他 们 喜欢 称 之 为 
“HEA” (right) 特殊 方法 ， 因 为 他 们 在 右 操 作 数 上 调用 。 不 管 你 喜欢 哪个 以 “r” 开 头 的 单 
词 ，_radd_ 和 __rsub_ 等 类 似 方法 中 的 “r” 就 是 这 个 意思 。 
因此 ， 为 了 让 示例 13-6 中 的 混合 类 型 加 法 能 正确 计算 ， 我们 要 实现 Vector._radd_ 方 
法 。 这 是 一 种 后 备 机 制 ， 如 果 左 操作 数 没 有 实现 _add_ 方法 ,或 者 实现 了 ,但 是 返回 
NotImplemented 表明 它 不 知道 如 何 处 理 右 操作 数 ， 那 么 Python 会 调用 _radd “方法 。 






































别 把 NotImpLemented 和 NotImpLementedError 搞 混 了 。 前 者 是 特殊 的 单 例 值 ， 
如 果 中 缀 运算 符 特殊 方法 不 能 处 理 给 定 的 操作 数 ， 那 么 要 把 它 返 回 (return) 
给 解释 器 。 而 NotImplementedError 是 一 种 异常 ， 抽 象 类 中 的 占 位 方法 把 它 抛 
出 (raise), 提醒 子 类 必须 覆盖 。 
























































最 简 可 用 的 radd 实现 如 示例 13-7 所 示 。 


示例 13-7 vector. add_ 和 _ radd 方法 
# 在 Vector 类 中 定义 
def _add_ (self, other): #@ 


pairs = itertools.zip_lLongest(self, other, fillvalue=0.0) 
return Vector(a + b for a, b in pairs) 


def _radd_ (self, other): #@ 
return self + other 


O __add_ 方法 与 示例 13-4 中 一 样 ， 没 有 变化 ， 这 里 列 出 ， 是 因为 _radd_ EHE. 

@ _radd 直接 委托 __add_，。 

radd 通常 就 这 么 简单 :直接 调用 适当 的 运算 符 ， 在 这 里 就 是 委托 _add__。 任 何 可 交 
换 的 运算 符 都 能 这 么 做 。 处 理 数字 和 向 量 时 ，+ 可 以 交换 ， 但 是 拼接 序列 时 不 行 。 

示例 13-4 中 的 方法 可 以 处 理 Vector 对 象 或 任何 具有 数值 元 素 的 可 迭代 对 象 ， 例 如 
Vector2d 实例 、 整 数 元 组 或 序 点 数 数组 。 但 是 ， 如 果 提 供 的 对 象 不 可 返 代 ， 那 么 _add__ 
就 无 法 处 理 ， 而 且 提 供 的 错误 消息 不 是 很 有 用 ， 如 示例 13-8 所 示 。 


示例 13-8 vector._add “方法 的 操作 数 要 是 可 迭代 对 象 
>>> vi + 1 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
File "vector_v6.py", line 328, in __add__ 






































TE 4: 这 两 个 术语 在 Python 文档 中 都 使 用 过 。 “Data Model” 一 章 (https://docs.python.org/3/reference/datamodel. 
html) 用 的 是 “reflected”( 反 射 ) Mi numbers 模块 文档 的 “9.1.2.2. Implementing the arithmetic operations” 
一 节 (https://docs.python.org/3/library/numbers.html#implementing-the-arithmetic-operations ) 用 的 是 “forward” 
( 正 向 ) 方法 和 “reverse”( 反 向 ) 方法 。 我 觉得 后 者 更 好 ,因为 “ 正 向 ”和 “ 反 向 ”明确 指出 了 方向 ,而 “ 反 
射 ”就 没 这 种 效果 。 
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pairs = itertools.zip_longest(self, other, fillvalue=0.0) 
TypeError: zip_longest argument #2 must support iteration 


RAR RP Be OR, (He EMC AED Vector 中 的 浮 点 数 元 素 相 加 ， 给 出 的 
消息 也 没什么 用 。 如 示例 13-9 所 示 。 


示例 13-9 Vector._add “方法 的 操作 数 应 是 可 迭代 的 数值 对 象 
>>> v1 + 'ABC' 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
File "vector_v6.py", line 329, in __add__ 
return Vector(a + b for a, b in pairs) 
File "vector_v6.py", line 243, in __init__ 
self._components = array(self.typecode, components) 
File "vector_v6.py", line 329, in <genexpr> 
return Vector(a + b for a, b in pairs) 
TypeError: unsupported operand type(s) for +: 'float' and 'str' 


示例 13-8 和 示例 13-9 485 F% H3 io ea Fe We NE TE AY PERIA ESE: 如 果 由 于 类 型 不 兼容 而 
导致 运算 符 特 殊 方 法 无 法 返回 有 效 的 结果 ， 那 么 应 该 返回 NotImplemented， 而 不 是 抛 出 
TypeError。 返 回 NotImplemented 时 ， 另 一 个 操作 数 所 属 的 类 型 还 有 机 会 执行 运算 ， 即 
Python 会 尝试 调用 反问 方法 。 

为 了 遵守 鸭子 类 型 精神 ， 我 们 不 能 测试 other 操作 数 的 类 型 ,或 者 它 的 元 素 的 类 型 。 我 们 
要 捕获 异常 ， 然 后 返回 NotImplemented。 如 果 解 释 器 还 未 反 转 操作 数 ， 那 么 它 将 尝试 去 做 。 
如 果 反 向 方法 返回 NotImplemented， 那 么 Python 会 抛 出 TypeError， 并 返回 一 个 标准 的 错 
误 消 息 ， 例 如 “unsupported operand type(s) for +: Vector and str”, 


示例 13-10 是 实现 Vector 加 法 的 特殊 方法 的 最 终 版 。 















































示例 13-10 vector_v6.py: + 运算 符 方法 ， 添 加 到 vector_v5.py 〈 见 示例 10-16) 中 
def __add__(self, other): 
try: 
pairs = itertools.zip_longest(self, other, fillvalue=0.0) 
return Vector(a + b for a, b in pairs) 
except TypeError: 
return NotImplemented 


def _ radd_ (self, other): 
return self + other 





如 果 中 组 运算 符 方法 抛 出 异常 ， 就 终止 了 运算 符 分 派 机 制 。 对 TypeError 来 
说 ， 通 常 最 好 将 其 捕获 ， 然 后 返回 NotImplemented。 这 样 ， 解 释 器 会 尝试 调 
用 反 向 运算 符 方法 ， 如 果 操 作 数 是 不 同 的 类 型 ， 对 调 之 后 ， 反 向 运算 符 方法 
可 能 会 正确 计算 。 























至 此 ， 我 们 编写 了 _add。 A radd 方法， 安全 重 载 了 + 运算 符 。 接 下 来 实现 另 一 个 中 
级 运算 符 : *。 





* — * — A 
13.4 ” 重 载 标量 乘法 运算 符 * 
Vector([1, 2, 3]) * x 是 什么 意思 ? 如 果 x 是 数字 ， 就 是 计算 标量 积 (scalar product), 


结果 是 一 个 新 Vector 实例 ， 各 个 分 量 都 会 乘 以 x 这 也 叫 元 素 级 乘法 (elementwise 


multiplication ) 。 























>>> v1 = Vector([1, 2, 3]) 
>>> vi * 10 
Vector([10.0, 20.0, 30.0]) 
>>> 11 * v1 
Vector([11.0, 22.0, 33.0]) 


涉及 Vector 操作 数 的 积 还 有 一 种 ， 叫 两 个 向 量 的 点 积 (dot product) ; 如 果 把 一 个 向 量 看 
作 1xN 和 矩阵 ， 把 另 一 个 向 量 看 作 和 Nx1 抢 阵 ， 那 么 就 是 矩阵 乘法 。NumPy 等 库 目 前 的 做 
法 是 ， 不 重 载 这 两 种 意义 的 *， 只 用 * 计算 标量 积 。 例 如 ， 在 NumPy 中 ， 点 积 使 用 numpy. 
dot() 国 数 计算 。” 


回 到 标量 积 的 话题 。 我 们 依然 先 实现 最 简 可 用 的 mul 和 __rmul_ 方法 : 
# 在 Vector 类 中 定义 


def __mul__(self, scalar): 
return Vector(n * scalar for n in self) 


def __rmul_(self, scalar): 
return self * scalar 


这 两 个 方法 确实 可 用 ,但 是 提供 不 兼容 的 操作 数 时 会 出 问题 。scalar 参数 的 值 要 是 数字 ， 
与 浮 点 数 相 乘 得 到 的 积 是 另 一 个 浮 点 数 (因为 Vector 类 在 内 部 使 用 浮 点 数 数组 )。 因 此 ， 
不 能 使 用 复数 ， 但 可 以 是 int, bool (int 的 子 类 ) ， 甚 至 fractions.Fraction 实例 等 标量 。 


我 们 可 以 像 示 例 13-10 那样 ， 采 用 鸭子 类 型 技术 ,在 _muL_ 方法 中 捕获 TypeError。 
但 是 ， 这 个 问题 有 个 更 易于 理解 的 方式 ， 而 且 也 更 合理 : BARD, BAT EH 
isinstance() 检查 scalar 的 类 型 ， 但 是 不 硬 编 码 具体 的 类 型 ， 而 是 检查 numbers.Real Fh 
象 基 类 。 这 个 抽象 基 类 涵盖 了 我 们 所 需 的 全 部 类 型 而且 还 支持 以 后 声明 为 numbers.Real 
抽象 基 类 的 真实 子 类 或 虚拟 子 类 的 数值 类 型 。 示 例 13-11 展示 了 白 殷 类 型 的 实际 运用 一 一 
显 式 检查 抽象 类 型 。 完 整 的 代码 清单 参见 本 书 的 代码 仓库 。 












































你 可 能 还 记得 11.6 节 说 过 ，decimaL.Decimat 没有 把 自己 注册 为 numbers. 
Real 的 虚拟 子 类 。 因 此 ，Vvector 类 不 会 处 理 decimal.Decimal 数字 。 

















示例 13-11 vector_v7.py: 增加 * 运算 符 方法 


from array import array 








注 5: 从 Python 3.5 起 , @ 记 号 可 以 用 作 中 级 点 积 运 算 符 。 详 情 参 见 “Python 3.5 新 引入 的 中 组 运算 符 @” 附 注 栏 。 
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import reprLib 
import math 

import functools 
import operator 
import itertools 
import numbers # © 


class Vector: 
typecode = 'd' 


def _ init__(self, components): 
self._components = array(self.typecode, components) 


# 排版 需要 ,省 略 了 很 多 方法 
# 参见 https://github.com/fluentpython/example-code 中 的 vector_v7.py 




















def __mul__(self, scalar): 
if isinstance(scalar, numbers.Real): # @ 
return Vector(n * scalar for n in self) 
else: # © 
return NotImplemented 


def _ rmul_(self, scalar): 
return self * scalar #@ 


@ 为 了 检查 类 型 ， 导 入 numbers 模块 。 

@ 如 果 scalar 是 numbers.Real 某 个 子 类 的 实例 ， 用 分 量 的 乘积 创建 一 个 新 Vector 实例 。 
© 否则 ， 返 回 NotImpLemented， 让 Python 尝试 在 scalar 操作 数 上 调用 _rmuL 方法 。 
O ZE, rml FREMT self * scalar, AFE _mul_ 方法 。 


有 了 示例 13-11 中 的 代码 之 后 ， 我 们 可 以 拿 Vector 实例 乘 以 常规 的 标量 值 和 不 那么 寻常 的 
数字 类 型 了 

>>> v1 = Vector([1.0, 2.0, 3.0]) 

>>> 14 * v1 

Vector([14.0, 28.0, 42.0]) 

>>> vi * True 

Vector([1.0, 2.0, 3.0]) 

>>> from fractions import Fraction 

>>> vi * Fraction(1, 3) 

Vector ([0.3333333333333333, 0.6666666666666666, 1.0]) 


通过 实现 + 和 *， 我 们 讲解 了 编写 中 缀 运算 符 最 常用 的 模式 。+ 和 * 用 的 技术 对 表 13-1 中 
列 出 的 所 有 运算 符 都 适用 (就 地 运算 符 在 13.6 节 讨 论 )。 

表 13-1: 中 组 运算 符 方法 的 名 称 就 地 运算 符 用 于 增 量 赋值 ， 比 较 运算 符 在 表 13-2 中 ) 
| 




















+ _add __radd__ __iadd__ 加 法 或 拼接 
__sub__ __rsub__ __isub__ 减法 

* mul __rmul__ imul 法 或 重复 复制 

/ truediv. rtruediv itruediv. 除法 
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运算 符 正 向 方法 反 向 方法 就 地 方法 说 明 

// _floordiv __rfloordiv__ __ifloordiv__ 整除 

% _mod _rmod __imod__ 取 模 
divmod() divmod rdivmod __idivmod 返回 由 整除 的 商 和 模 数 组 成 的 元 组 
** | pow() pow _ _rpow_ __ipow _ ens j 

@ matmul rmatmul __imatmul__ 和 矩阵 乘法 * 
& __and__ __rand__ __iand__ 立 与 

| or ror __ior__ ME 

^ xor _rxor_ __ixor__ 立 异 或 

<< lshift rlshift __ilshift__ 安 位 左 移 
>> rshift rrshift __irshift__ 安 位 右 移 





* pow 的 第 三 个 参数 modulo 是 可 选 的 : pow(a， 


pow__(b, modulo)), 
# Python 3.5 新 引入 的 。 


众多 比较 运算 符 也 是 一 类 中 绥 运 算 符 ， 


运算 符 。 


下 述 附 注 栏 介绍 了 Python 3.5 (写作 本 





b，modulo)， 直 接 调用 特殊 方法 时 也 支持 这 个 参数 (如 a._ 


但 是 规则 稍 有 不 同 。 我 们 将 在 下 一 市 讨 论 众多 比较 








区 时 尚未 发 布 ") 引入 的 @ 运 算 符 ， 选 读 。 





Python 3.5 新 引入 的 中 缀 运算 符 @ 





Python 3.4 没有 为 点 积 提 供 中 级 运算 符 。 不 过 ， 写 作 本 书 时 ，Python 3.5 的 pre-alpha 
版 实现 了 “PEP 465—A dedicated infix operator for matrix multiplication” (https://www. 
python.org/dev/peps/pep-0465/), RET BRAT EY CIS (例如 ,a @b 是 a 和 bb 的 点 
积 )。@ 运 算 符 由 特殊 方法 rmatmul__ 和 _ imatmuL 提供 支持 ,名 称 取 
自 “matrix multiplication” (42FRiA), A al, +R A SRL AI, 12% Python 
3.5 的 解释 器 能 识别 ， 因 此 NumPy 团队 (以 及 我 们 自己 ) 可 以 在 用 户 定义 的 类 型 中 支 
持 @ 运 算 符 。Python 解析 器 也 做 了 修改 ， 能 处 理 中 组 运算 符 @ (在 Python 3.4 中 ,a @ 
b 是 一 种 向 法 错误 )。 
为 了 体验 一 下 ， 我 从 源码 编译 了 Python 3.5， 然 后 为 Vector 实现 了 点 积 运 算 符 @， 
做 了 测试 。 
下 面 是 我 做 的 最 简单 的 测试 : 

>>> va = Vector([1, 2, 3]) 


>>> vz = Vector([5, 6, 7]) 
>>> va @ vz == 38.0 # 1*5 + 2*6 + 3*7 


matmul 





还 





True 
>>> [10, 20, 30] @ vz 
380.0 

注 6: 现 已 发 布 。 一 一 编者 注 
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>>> va @ 3 
Traceback (most recent call last): 


TypeError: unsupported operand type(s) for @: 'Vector' and 'int' 
下 面 是 相应 特殊 方法 的 代码 : 


class Vector: 


# 排版 需要 ,省 略 了 很 多 方法 

















def __matmul__(self, other): 
try: 
return sum(a * b for a, b in zip(self, other)) 
except TypeError: 
return NotImplemented 


def _ rmatmul__(self, other): 
return self @ other 


完整 的 源码 在 本 书 代 码 仓 库 (https://github.com/fluentpython/example-code) 里 的 
Vector_py3_5.py 文件 中 。 


记得 要 在 Python 3.5 中 测试 ， 否 则 会 导致 SyntaxError | 








13.5 众多 比较 运算 符 


Python 解释 器 对 众多 比较 运算 符 (==、!=、>、<、>=、<=) 的 处 理 与 前 文 类 似 ， 不 过 在 两 

个 方面 有 重大 区 别 。 

。 正 向 和 反 向 调用 使 用 的 是 同一 系列 方法 。 这 方面 的 规则 如 表 13-2 所 示 。 例 如 ,对 == 来 说 ， 
正 向 和 反 向 调用 都 是 _eq_ “方法 ， 只 是 把 参数 对 调 了 ， 而 正 向 的 _gt_ “方法 调用 的 是 
反 向 的 _Lt 方法 ， 并 把 参数 对 调 。 

。 对 == 和 != 来 说 ， 如 果 反 癌 调 用 失败 ，Python 会 比较 对 象 的 ID, iAH TypeError。 


表 13-2: 众多 比较 运算 符 : 正 向 方法 返回 NotImpLemented 的 话 ， 调 用 反 向 方法 























分 组 中 缀 运算 符 。” 正 向 方法 调用 反 向 方法 调用 后 备 机 制 

相等 性 a == b a.__eq__(b) b.__eq__(a) 返回 id(a) == id(b) 
a != b a.__ne__(b) b.__ne__(a) 返回 not (a == b) 

排序 a>b a.__gt__(b) b._ lt _ (a) HAH TypeError 
a<b a._lt_ (b) b.__gt__(a) HAH TypeError 
a>=b a.__ge__(b) b.__le__(a) HAHH TypeError 
a <= a.__le__(b) b.__ge__(a) HAH TypeError 














了 解 这 些 规则 之 后 


Python 3 的 新 行为 





Python 2 之 后 的 比较 运算 符 后 备 机 制 都 变 了 。 对 于 





_ne_, 现在 Python 3 ik 





回 


结果 是 对 ea 结果 的 取 反 。 对 于 排序 比较 运算 符 ，Python 3 抛 出 TypeError， 











并 把 错误 消息 设 为 'unorderable types: 
这 些 比较 的 结果 很 怪异 ， 会 考虑 对 象 的 类 型 和 ID ， 而 且 无 规 得 


int() < tuple()' 





。 在 Python 2 中 ， 
EE 可 循 。 然 而 ， 


比较 整数 和 元 组 确实 没有 意义 ， 因 此 此 时 抛 出 TypeError 是 这 门 语言 的 一 大 


， 我 们 来 分 析 并 改进 Vector. 


v5.py 中 是 这 样 定义 的 : 
class Vector: 


# 省 略 了 很 多 行 


def _eq_ (self, other): 


>>> 


>>> vb 
>>> va 


True 


va 


return (len(self) == Len(other) and 


_eq “方法 的 行为 。 


all(a == b for a, b in zip(self, other))) 
这 个 方法 的 行为 如 示例 13-12 所 示 。 


示例 13-12 Vector 实例 与 Vector 实例 、Vector2d 实例 和 元 组 比较 


= Vector([1.0, 2.0, 3.0]) 
= Vector(range(1, 4)) 
== vb #@ 


>>> vc = Vector([1, 2]) 

>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 

>>> vc == v2d #@ 


True 


>>> t3 = (1, 2, 3) 
>>> va = t3 # © 


True 


@ 两 个 具有 相同 数值 分 量 的 Vector 实例 是 相等 的 。 


四 如 果 Vector 实例 的 分 量 与 Vector2d 实例 
© Vector 实例 的 分 量 与 元 组 或 其 他 任何 可 迭代 对 象 的 元 素 相等 


示例 13-12 中 的 最 后 一 个 结果 可 能 不 是 很 理想 。 我 对 这 一 点 没有 强制 规则 ， 






































Mike. Pit, “Python 之 禅 ”说 道 : 
如 果 存 在 多 种 可 能 ， 不 要 猜测 。 


对 操作 数 过 度 宽容 可 能 导致 令 人 惊讶 的 结果 ， 而 程 


从 Python 自身 来 找 线索 ， 我 们 发 现 [1,2] == (1, 














的 分 量 都 相等 


， 那 么 两 个 实例 相等 。 


， 那 么 对 象 也 相等 。 


序 员 讨 大 惊喜 。 


2) 的 结果 是 False。 





























这 个 方法 在 vector_ 


要 由 应 用 上 下 


因此 ， 我 们 要 保守 一 








注 7: 实际 运行 时 会 抛 出 异常 : TypeError: object of type 'Vector2d' has no Len()， 因 为 vector2d 没有 实 
W len 特殊 方法 。 如 果 改 为 vc == set(v2d) 就 会 返回 True, 编者 注 
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点 ， 做 些 类 型 检查 。 如 果 第 二 个 操作 数 是 Vector 实例 (或 者 Vector 子 类 的 实例 )， 那 么 就 使 
用 _eq “方法 的 当前 逻辑 。 和 否则， 返回 NotImplemented， 让 Python 处 理 。 参 见 示例 13-13。 


示例 13-13 vector_v8.py: 改进 Vector 类 的 _eq_ “方法 
def _eq_ (self, other): 
if isinstance(other, Vector): @ 
return (len(self) == Len(other) and 
all(a == b for a, b in zip(self, other))) 
else: 
return NotImplemented @ 


O 如 果 other 操作 数 是 Vector 实例 (或 者 Vector 子 类 的 实例 ) ， 那 就 像 之 前 那样 比较 。 
© 否则 ， 返 回 NotImplemented, 


如 果 使 用 示例 13-13 中 的 新 版 Vector ._eq__ 方法 运行 示例 13-12 中 的 测试 ， 得 到 的 结果 如 
示例 13-14 所 示 。 














示例 13-14 与 示例 13-12 一 样 的 测试 : 最 后 一 个 结果 变 了 
>>> va = Vector([1.0, 2.0, 3.0]) 
>>> vb = Vector(range(1, 4)) 
>>> va == vb # Q 
True 
>>> vc = Vector([1, 2]) 
>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 
>>> vc == v2d #@ 
True 
>>> t3 = (1, 2, 3) 
>>> va == t3 # © 
False 


@ 结果 与 之 前 一 样 ， 与 预期 相符 。 

O 结果 与 之 前 一 样 ， 但 是 为 什么 呢 ? 稍 后 解释 。” 

O 结果 不 同 了 ， 这 才 是 我 们 想 要 的 。 但 是 为 什么 会 这 样 ? TATE PR 

在 示例 13-14 中 的 三 个 结果 里 ， 第 一 个 没 变 ， 但 是 后 两 个 变 了 ， 这 是 因为 示例 13-13 中 的 

eq _ 方 法 返回 了 NotImplemented, Vector 实例 与 Vector2d 实例 比较 时 ， 有 具体 步骤 如 下 。 

(1) 为 了 计算 vc == v2d, Python 调用 Vector.__eq__(vc, v2d)。 

(2) 4 Vector.__eq_(vc, v2d) 确认 ，v2d 不 是 Vector 实例 ， 因 此 返回 NotImpLemented。 

(3) Python 得 到 NotImpLemented 结果 ， 尝 试 调用 Vector2d._eq__(v2d, vc), 

(4) Vector2d.__eq__(v2d, vc) 把 两 个 操作 数 都 变 成 元 组 ， 然 后 比较 ， 结 果 是 True 
(Vector2d. eq “方法 的 代码 在 示例 9-9 中 ) 。 


在 示例 13-14 F, Vector 实例 和 元 组 比较 时 ， 有 具体 步骤 如 下 。 


(1) 为 了 计算 va == t3, Python 调用 Vector.__eq__(va, t3), 
(2) 4 Vector.__eq__(va, t3) 确认 ，t3 不 是 Vector 实例 ， 因 此 返回 NotImplemented, 
(3) Python 得 到 NotImpLemented 结果 ， 党 试 调用 tuple.__eq__(t3, va), 





E 
A 

































































注 8: 这 次 不 抛 出 异常 ， 而 是 返回 True。 请 参阅 前 一 个 编者 注 。 一 一 编者 注 
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(4) tuple.__eq__(t3, va) 不 知道 Vector 是 什么 ， 因 此 返回 NotImplemented, 

(5) 对 == 来 说 ， 如 果 反 向 调用 返回 NotImpLemented，Python 会 比较 对 象 的 ID ， 作 最 后 一 搏 。 
那么 != 运算 符 呢 ? 我 们 不 用 实现 它 ， 因 为 从 object 继承 的 _ne 方法 的 后 备 行为 满足 了 
我 们 的 需求 : 定义 了 _ eq 方法， 而 且 它 不 返回 NotImplemented, _ne__ 2x} _eq__ ik 
回 的 结果 取 反 。 


也 就 是 说 ， 对 示例 13-14 中 的 对 象 来 说 ， 使 用 != 运算 符 比较 的 结果 是 一 致 的 : 














>>> va != vb 

False 

>>> VC != v2d 
False 

>>> va != (1, 2, 3) 
True 


从 object 中 继承 的 _ne 方法 , 运作 方式 与 下 述 代码 类 似 , 不 过 原版 是 用 C 语言 实现 的 : ” 


def _ne_(self, other): 
eq_result = self == other 
if eq_result is NotImplemented: 
return NotImplemented 
else: 
return not eq_result 





Python 3 文档 的 缺陷 


写作 本 书 时 ， 众 多 比较 方法 的 文档 (https://docs.python.org/3/reference/datamodel. 
html) 说 :“x==y 成 立 不 代表 x!=y 不 成 立 。 据 此 ， 如 果 定 义 _eq_() 方 法 ， 
也 要 定义 _ne_() 方法， 这 样 运算 符 的 行为 才能 符合 预期 -。” 对 Python 2 来 
说 ， 确 实 是 这 样 。 但 对 Python 3 而 言 ， 这 不 是 好 的 建议 ， 因 为 从 object 类 
继承 的 _ne_ 实现 够 用 了 ， 儿 乎 不 用 重 载 。Guido 在 他 写 的 “What's New in 
Python 3.0” 一 文 (https://docs.python.org/3/whatsnew/3.0.html#operators-and-special- 
methods) 中 说 明了 这 个 新 行为 , CE “Operators And Special Methods” 一 节 中 。 文 
档 的 这 个 缺陷 在 issue 4395 (http://bugs.python.org/issue4395) 中 做 了 记录 。 
































讨论 完 重要 的 中 级 运算 符 重 载 之 后 ， 下 面 换 一 类 运算 符 ， 增 量 赋值 运算 符 。 


t E mzk YA 一 Se 

13.6 ” 增 量 赋值 运算 符 

Vector 类 已 经 支持 增 量 赋值 运算 符 += 和 *= 了 ， 如 示例 13-15 所 示 。 

示例 13-15 ” 增 量 赋值 不 会 修改 不 可 变 目 标 ， 而 是 新 建 实例 ， 然 后 重新 绑 定 


>>> v1 = Vector([1, 2, 3]) 
>>> vi_alias = vi #@ 























注 9: object.__eq__ fi] object.__ne__ 的 逻辑 在 object_richcompare 函数 中 ， 位 于 CPython 源码 的 Objects/ 
typeobject.c 文件 (https://hg.python.org/cpython/file/c0e3 1 1e010fc/Objects/typeobject.c) 中 。 
TE 10: 这 个 缺陷 现在 已 经 修正 了 。 编者 注 
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>>> id(v1) #@ 
4302860128 

>>> v1 += Vector([4, 5, 6]) # © 
>>> vl #0 

Vector([5.0, 7.0, 9.0]) 
>>> id(v1) # O 
4302859904 

>>> vi_alias # O 
Vector([1.0, 2.0, 3.0]) 
>>> v1 *= 11 #@ 

>>> vl #68 
Vector([55.0, 77.0, 99.0]) 
>>> id(v1) 

4302858336 


O 复制 一 份 ， 供 后 面 审 查 vector([1，2，3]) 对 象 。 

O 记 住 一 开始 绑 定 给 v1 的 Vector 实例 的 ID。 

© 增 量 加 法 运算 。 

O 结果 与 预期 相符 …… 

©@…… 但 是 创建 了 新 的 Vector 实例 。 

O HA vi_alias, 确认 原来 的 Vector 实例 没 被 修改 。 

O 增 量 乘法 运算 。 

O 同样 ， 结 果 与 预期 相符 ， 但 是 创建 了 新 的 Vector 实例 。 

如 果 一 个 类 没有 实现 表 13-1 列 出 的 就 地 运算 符 ， 增 量 赋值 运算 符 只 是 语法 糖 : a t= b 的 
作用 与 a = a + b 完 全 一 样 。 对 不 可 变 类 型 来 说 ， 这 是 预期 的 行为 ， 而 且 ， 如 果 定 义 了 
_add “方法 的 话 ， 不 用 编写 额外 的 代码 ，+= 就 能 使 用 。 


然而 ， 如 果实 现 了 就 地 运算 符 方法 ,例如 _iadd_， 计算 a += b 的 结果 时 会 调用 就 地 运 入 
符 方法 。 这 种 运算 符 的 名 称 表明 ， 它 们 会 就 地 修改 左 操作 数 ， 而 不 会 创建 新 对 象 作 为 结果 。 






















































































不 可 变 类 型 ， 如 Vector 类 ， 一 定 不 能 实现 就 地 特殊 方法 。 这 是 明显 的 事实 ， 
不 过 还 是 值得 提出 来 。 














为 了 展示 如 何 实现 就 地 运算 符 ， 我 们 将 扩展 示例 11-12 中 的 BingoCage 类 ,实现 add__ 
和 iadd 方法。 


我 们 把 子 类 命名 为 AddableBingoCcage。 示 例 13-16 是 我 们 想 让 + 运算 符 具 有 的 行为 。 


示例 13-16 使 用 + 运算 符 新 建 AddableBingoCage 实例 
>>> vowels = 'AEIOU' 
>>> globe = AddableBingoCage(vowels) © 
>>> globe. inspect() 
('A', 'E', 'I', '0', 'U') 
>>> globe.pick() in vowels @ 
True 
>>> len(globe.inspect()) © 
4 


>>> globe2 = AddableBingoCage('XYZ') @ 
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>>> globe3 = globe + globe2 

>>> len(globe3.inspect()) © 

7 

>>> void = globe + [10, 20] Q 
Traceback (most recent call last): 


TypeError: unsupported operand type(s) for +: 'AddableBingoCage' and 'list' 


O 使 用 5 个 元 素 (vowels 中 的 各 个 字母 ) 创建 一 个 globe 实例 。 

O 从 中 取出 一 个 元 素 ， 确 认 它 在 vowels H, 

© 确认 globe 的 元 素数 量 减少 到 4 个 了 。 

O 创建 第 二 个 实例 ， 它 有 3 个 元 素 。 

O 把 前 两 个 实例 加 在 一 起 ， 创 建 第 3 个 实例 。 这 个 实例 有 7 个 元 素 。 

Q AddableBingoCage 实例 无 法 与 列表 相 加 ， 抛 出 TypeError。 那 个 错误 消息 是 add Fy 
法 返回 NotImplemented 时 Python 解释 器 输出 的 。 


AddableBingoCage 是 可 变 的 ， 实 现 _iadd__ 方法 后 的 行为 如 示例 13-17 所 示 。 


示例 13-17 ”可 以 使 用 += 运算 符 载 入 现 有 的 AddableBingoCage 实例 (接续 示例 13-16) 
>>> globe_orig = globe @ 
>>> len(globe.inspect()) @ 
4 
>>> globe += globe2 © 
>>> Llen(globe.inspect()) 
7 
>>> globe += ['M', 'N'] @ 
>>> Len(globe.inspect()) 
9 











>>> globe is globe orig 日 

True 

>>> globe += 1 Q 

Traceback (most recent call last): 


TypeError: right operand in += must be 'AddableBingoCage' or an iterable 


@ 复制 一 份 ， 供 后 面 检查 对 象 的 标识 。 
@ 现在 globe 有 4 个 元 素 。 
© AddableBingoCage 实例 可 以 从 同属 一 类 的 其 他 实例 那里 接受 元 素 。 

O += 的 右 操 作 数 也 可 以 是 任何 可 迭代 对 象 。 

O 在 这 个 示例 中 ，globe 始终 指 代 globe_orig 对 象 。 

Q AddableBingoCage 实例 不 能 与 非 可 迭代 对 象 相 加 ， 错 误 消 息 会 指明 原因 。 

注意 ， 与 + 相 比 ，+= 运算 符 对 第 二 个 操作 数 更 宽容 。+ 运算 符 的 两 个 操作 数 必须 是 相同 类 
型 (这 里 是 AddabLeBingoCage) ， 如 若 不 然 ， 结 果 的 类 型 可 能 让 人 摸 不 着 头脑 。 而 t= 的 情 
况 更 明确 ， 因 为 就 地 修改 左 操作 数 ， 所 以 结果 的 类 型 是 确定 的 。 


通过 观察 内 置 List 类 型 的 工作 方式 ， 我 确定 了 要 对 + 和 += 的 行为 做 什么 限制 。 
my_list + x 只 能 用 于 把 两 个 列表 加 到 一 起 ， 而 my_list += x 可 以 使 用 右边 可 
迭代 对 象 x 中 的 元 素 扩展 左边 的 列表 。list.extend() 的 行为 也 是 这 样 的 ， 它 的 
参数 可 以 是 任何 可 迭代 对 象 。 
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我 们 明确 了 AddableBingoCage 的 行为 ， 下 面 来 看 实现 方式 ， 如 示例 13-18 所 示 。 


示例 13-18 bingoaddable.py: AddableBingoCage 扩展 BingoCage， 支 持 + 和 += 
import itertools @ 











from tombola import Tombola 
from bingo import BingoCage 


class AddableBingoCage(BingoCage): @ 


def _add_(self, other): 
if isinstance(other, Tombola): © 
return AddableBingoCage(self.inspect() + other.inspect()) @ 
else: 
return NotImplemented 


def _ iadd (self, other): 
if isinstance(other, Tombola): 
other_iterable = other.inspect() @ 
else: 
try: 
other_iterable = iter(other) 
except TypeError: @ 
self_cls = type(self).__name__ 
msg = "right operand in += must be {!r} or an iterable" 
raise TypeError(msg.format(self_cls)) 
self.load(other_iterable) @ 
return self @ 


@ “PEP 8 一 Style Guide for Python Code” (https://www.python.org/dev/peps/pep- 
0008/#imports) 建议 ， 把 导入 标准 库 的 语句 放 在 导入 自己 编写 的 模块 之 前 。 

@ AddableBingoCage 扩展 BingoCage, 

© _add “方法 的 第 二 个 操作 数 只 能 是 Tombola 实例 。 

O 如 果 other 是 Tombola 实例 ， 从 中 获取 元 素 。 

O 否则 ， 尝 试 使 用 other 创建 迭代 器 。”" 

O 如 果 尝 试 失败 ， 抛 出 异常 ， 并 且 告 知 用 户 该 怎么 做 。 如 果 可 能 ， 错 误 消 息 应 该 明确 指导 

用 户 怎 么 解决 问题 。 

O 如 果 能 执行 到 这 里 ， 把 other_iterable AA self, 

O 重要 提醒 : 增 量 赋值 特殊 方法 必须 返回 self, 


通过 示例 13-18 中 _add_ 和 _ iadd 返回 结果 的 方式 可 以 总 结 出 就 地 运算 符 的 原理 
_add _ 
调用 AddableBingoCage 构造 方法 构建 一 个 新 实例 ， 作 为 结果 返回 。 
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TE 11: 内 置 的 iter 函数 在 下 一 章 讨论 。 这 里 , 本 可 以 使 用 tuple(other), 这 样 做 是 可 以 的 , 但 是 .load(...) 
方法 迭代 参数 时 要 构建 大 量 元 组 ， 资 源 消耗 大 。 














__iadd__ 
把 修改 后 的 self 作为 结果 返回 。 


最 后 ， 示 例 13-18 中 还 有 一 点 要 注意 : 从 设计 上 看 ，AddabLeBingoCage 不 用 定义 radd 
方法 ， 因 为 不 需要 。 如 果 右 操作 数 是 相同 类 型 ， 那么 正 问 方 法 _add_ 会 处 理 ， 
此 ，Python 计算 a + bhf, MR a fe AddableBingoCage 实例 ， 而 b 不 是 ， 那 么 会 返 
NotImpLemented， 此 时 或 许可 以 让 b 所 属 的 类 接手 处 理 。 可 是 ， 如 果 表 达 式 是 b + a， 而 b 不 
是 AddableBingoCage 实例 ， 返 回 了 NotImplemented， 那 么 Python 最 好 放弃 ， 抛 出 TypeError， 
因为 无 法 处 理 b。 

一 般 来 说 ， 如 果 中 缀 运算 符 的 正 向 方法 (如 __mul__) 只 处 理 与 self 属于 同 

一 类 型 的 操作 数 ， 那 就 无 需 实现 对 应 的 反 向 方法 (如 _rnuL_)， 因 为 按照 

定义 ， 反 向 方法 是 为 了 处 理 类 型 不 同 的 操作 数 。 








HE | 























我 们 对 Python 运算 符 重 载 的 讨论 到 此 结束 。 


13.7 ARENA 


本 章 首 先 说 明了 Python 对 运算 符 重 载 施加 的 一 些 限制 : 禁止 重 载 内 置 类 型 的 运算 符 ， 而 且 
限于 重 载 现 有 的 运算 符 ， 不 过 有 几 个 例外 (is, and, or, not). 


随后 ， 本 章 讲解 了 如 何 重 载 一 元 运算 符 ， 并 实现 了 neg 和 _ pos 方法 。 接 着重 载 
中 绥 运 算 符 ， 首 先是 +， 它 由 add “方法 提供 支持 。 我 们 得 知 ， 一 元 运算 符 和 中 组 运算 
符 的 结果 应 该 是 新 对 象 ， 并 且 绝 不 能 修改 操作 数 。 为 了 支持 其 他 类 型 ， 我 们 返回 特殊 的 
NotImplemented 值 (不 是 异常 )， 让 解释 器 尝试 对 调 操作 数 ， 然 后 调用 运算 符 的 反 向 特殊 方 
ik (An radd), E| 13-1 中 的 流程 图 概述 了 Python 处 理 中 绥 运 算 符 的 算法 。 


如 果 操 作 数 的 类 型 不 同 ， 我 们 要 检测 出 不 能 处 理 的 操作 数 。 本 章 使 用 两 种 方式 处 理 这 个 问 
题 : 一 种 是 鸭子 类 型 ， 直 接 尝 试 执行 运算 ， 如 果 有 问题 ， 捕 获 TypeError 异常 ， 另 一 种 是 
显 式 使 用 isinstance 测试 ，_muL_ 方法 就 是 这 么 做 的 。 这 两 种 方式 各 有 优 缺 点 : 鸭子 类 
型 更 灵活 ， 但 是 显 式 检查 更 能 预知 结果 。 如 果 选 择 使 用 isinstance， 要 小 心 ， 不 能 测试 具 
体 类 ， 而 要 测试 numbers.Real 抽象 基 类 ， 例 如 isinstance(scalar, numbers.Real), XE 
灵活 性 和 安全 性 之 间 做 了 很 好 的 折 中 ， 因 为 当前 或 未 来 由 用 户 定义 的 类 型 可 以 声明 为 抽象 
基 类 的 真实 子 类 或 虚拟 子 类 ， 详 情 参见 第 11 章 。 


接 下 来 的 话题 是 众多 比较 运算 符 。 我 们 通过 _eq “方法 实现 了 ==， 而 且 发 现 Python 在 
object 基 类 中 通过 _ne ”方法 为 != 提供 了 便利 的 实现 。Python 处 理 这 些 运算 符 的 方式 与 
>、<、>= 和 <= 稍 有 不 同 ， 有 具体 而 言 是 选择 反 向 方法 的 逻辑 不 同 ， 此 外 Python 还 会 特别 处 
理 == FU l= 的 后 备 机 制 : 从 不 抛 出 错误 ， 因 为 Python 会 比较 对 象 的 ID ， 作 最 后 一 搏 。 
最 后 一 节 专 门 讨 论 了 增 量 赋值 运算 符 。 我 们 发 现 ，Python 处 理 这 种 运算 符 的 方式 是 把 它们 
当 作 常规 的 运算 符 加 上 赋值 操作 ， 即 a += b 其 实 会 当成 a = a + b 处 理 。 这 样 会 始终 创建 
新 对 象 ， 因 此 可 变 类 型 和 不 可 变 类 型 都 能 用 。 对 可 变 对 象 来 说 ， 可 以 实现 就 地 特殊 方法 ， 
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例如 支持 += 的 iadd 方法 ， 然 后 修改 左 操 作 数 的 值 。 为 了 举例 说 明 ， 我 们 把 不 可 变 的 
Vector 类 放 到 一 边 ， 为 BingoCage 的 子 类 实现 了 += 运算 符 ， 它 会 把 元 素 添 加 到 随机 选号 池 
中 ， 这 与 内 置 的 list 类 型 把 += 当成 list.extend() 方法 的 快捷 方式 类 似 。 在 实现 的 过 程 
中 ， 我 们 得 知 在 可 接受 的 类 型 方面 ，+ 应 该 比 += 严格 。 对 序列 类 型 来 说 ，+ 通常 要 求 两 个 
操作 数 属于 同一 类 型 ， 而 += 的 右 操作 数 往往 可 以 是 任何 可 迭代 对 象 。 


13.8 延伸 阅读 


在 Python 编程 中 ， 运 算 符 重 载 经 常 使 用 isinstance 做 测试 。 一 般 来 说 ， 库 应 该 利用 动态 
类 型 (提高 灵活 性 )， 避 免 显 式 测试 类 型 ， 而 是 直接 尝试 操作 ， 然 后 处 理 异常 ， 这 样 只 要 
对 象 支持 所 需 的 操作 即 可 ， 而 不 必 一 定 是 某 种 类 型 。 但 是 ，Python 抽象 基 类 允许 一 种 更 为 
严格 的 鸭子 类 型 ，Alex Martelli 称 之 为 “ 白 鹅 类 型 "， 编 写 重 载运 算 符 的 代码 时 经 常 能 
到 。 因 此 ， 如 果 你 跳 过 了 第 11 章 ， 一定 要 去 读 读 。 


运算 符 特 殊 方法 的 主要 参考 资料 是 “Data Model” 一 章 (https://docs.python.org/3/reference/ 
datamodel.html)。 这 是 权威 资料 ， 不 过 如 “Python 3 文档 的 缺陷 ”所 述 ， 现 在 有 个 明显 
的 缺陷 , “ 即 建议 “如 果 定 义 _eq_() 方法 ， 同 时 也 要 定义 _ne_“() 方法 ”。 实 际 上 , 在 
Python 3 中 ， 继 承 自 object 类 的 _ne_ 方法 能 满足 绝 大 多 数 需求 ， 因 此 一 般 很 少 实现 
ne J ik, Python 标准 库 中 numbers 模块 文档 的 “9.1.2.2. Implementing the arithmetic 
operations” 一 节 (https://docs.python.org/3/library/numbers.html#implementing-the-arithmetic- 
operations ) 也 值得 一 读 。 


与 之 相关 的 一 个 技术 是 泛 国 数 ， 由 Python 3 的 @singledispatch 装饰 器 支持 (参见 7.8.2 
节 )。 在 David Beazley 与 Brian K. Jones 的 著作 《Python Cookbook (第 3 版 ) 中 文 版 》 中 ， 
“9.20 通过 函数 注解 来 实现 方法 重 裁 ” 秘 般 使 用 一 些 高 级 元 编程 (涉及 元 类 ) 通过 函数 注 
REKI TIEFER. Martelli, Ravenscroft 与 Ascher 的 《Python Cookbook (第 2 版 ) 
中 文 版 》 一 书 有 个 有 趣 的 诀窍 (2.13 节 ，Erik Max Francis 提供 ) ， 展 示 了 如 何 重 载 << 运算 
符 ， 在 Python 中 模仿 C++ 的 iostream 句法 。 这 两 本 书 中 还 有 一 些 其 他 关于 运算 符 重 载 的 
示例 ， 我 只 提 了 两 个 重要 的 诀窍 。 

functools.total_ordering 国 数 是 个 类 装饰 器 (Python 2.7 及 以 上 版 本 可 用 )， 它 能 为 只 
定义 了 几 个 比较 运算 符 的 类 自动 生成 全 部 比较 运算 符 。 请 参阅 functools 模块 的 文档 
(https://docs.python.org/3/library/functools.html#functools.total_ordering ) 。 

如 果 你 对 动态 类 型 语言 的 运算 符 方法 分 派 机 制 感 兴趣 ， 推 荐 阅读 两 篇 具有 重大 意义 的 
论文 : Dan Ingalls (Smalltalk 团队 的 创始 成 员 ) 写 的 “A Simple Technique for Handling 
Multiple Polymorphism” (https://wiki.illinois.edu//wiki/download/attachments/273416327/ 
ingalls.pdf), LA Kurt J. Hebel 与 Ralph Johnson (Johnson 是 《设计 模式 : 可 复 用 面向 对 
象 软件 的 基础 》 的 作者 之 一 ， 因 此 出 了 名 ) & SAY “Arithmetic and Double Dispatching in 
Smalltalk-80”  (https://wiki.illinois.edu//wiki/download/attachments/273416327/double-dispatch. 
pdf)。 这 两 篇 论文 深入 分 析 了 动态 类 型 语言 (如 Smalltalk, Python 和 Ruby) 的 多 态 。 
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TE 12: 这 个 缺陷 现在 已 经 修正 了 。 一 一 编者 注 
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Python 没有 使 用 这 两 篇 论文 中 所 述 的 双重 分 配 处 理 运算 符 。Python 使 用 的 正 向 运算 符 和 反 
向 运算 符 更 便于 用 户 定 义 的 类 支持 双重 分 派 ， 但 是 这 种 方式 需要 解释 器 做 些 特殊 处 理 。 与 
之 相 比 ， 经 典 的 双重 分 派 是 一 般 性 的 技术 ，Python 和 任何 面向 对 象 语言 都 能 使 用 ， 而 且 不 
止 适 用 于 中 级 运算 符 。 其 实 ，Ingalls、Hebel 和 Johnson 描述 双重 分 派 使 用 的 示例 完全 不 同 。 


本 章 开 篇 引用 的 那 段 话 ， 以 及 “杂谈 ”中 引用 的 两 段 话 ， 均 出 自 “The C Family of 
Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, and James Gosling” 一 文 (http:/ 


























www.gotw.ca/publications/c_family_interview.htm), FI% F Java Report, 5(7), July 2000 和 
C++ Report, 12(7), July/August 2000 上 。 如 果 你 对 编程 语言 设计 感 兴趣 ， 那 么 这 篇 文章 非 
we 7B sé 

党 值得 一 读 。 





运算 符 重 载 的 优 缺 点 


如 本 章 开 头 引 用 的 那 段 话 所 述 ，James Gosling 决定 不 让 Java 支持 运算 符 重 载 。 在 那 
次 访谈 中 (“The C Family of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, 
and James Gosling” , http://www.gotw.ca/publications/c_family_interview.htm) ， 他 说 : 


KH 20% 到 30% 的 人 觉得 运算 符 重 载 是 罪恶 之 源 ; HHEAMBEHEHERS 
BIRSA, E AREA + RA RGA, FRES-AB, LAMAKAR 
于 一 个 事实 : 世界 上 有 成 千 上 万 个 运算 符 ， 但 是 只 有 少数 几 个 适合 重 载 。 因 此 ， 
我 们 要 挑选 ， 但 是 有 时 所 作 的 决定 违背 直觉 。 


Guido van Rossum 为 运算 符 重 载 采 取 了 一 种 折 中 方式 : 不 放任 用 户 随 意 创 建 运算 符 ， 
do <=> A i), 这样 防 止 了 用 户 对 运算 符 的 异想天开 ， 而 且 能 让 Python 解析 器 保持 简 
单 。 此 外 ，Python 还 禁止 重 载 内 置 类 型 的 运算 符 ， 这 个 限制 也 能 增强 可 读 性 和 可 预知 
的 性 能 。 





Gosling 接着 说 道 : 
社区 中 约 有 10% 的 人 能 正确 地 使 用 和 真正 关心 运算 符 重 载 ， 对 这 些 人 来 说 ， 运 
算 符 重 载 是 极其 重要 的 。 这 部 分 人 几乎 专门 处 理 数字 ， 在 这 一 领域 中 ， 为 了 符 
合 人 类 的 直觉 ， 表 示 法 特别 重要 ， 因 为 他 们 进入 这 一 领域 时 ， 直 觉 中 已 经 知道 + 
的 意思 ， 他 们 知道 “a+b” 中 的 a 和 b 可 以 是 复数 、 移 阵 或 其 他 合理 的 东西 。 
表示 法 方面 的 问题 不 能 低估 。 下 面 以 金融 领域 为 例 说 明 。 在 Python 中， 可 以 使 用 下 述 
公式 计算 复 利 : 
interest = principal * ((1 + rate) ** periods - 1) 
不 管 涉及 什么 数字 类 型 ， 这 种 表示 法 都 成 立 。 因 此 ， 如 果 是 做 重要 的 金融 工作 ， 你 
要 确保 periods 是 整数 ，rate、interest fe principal 是 精确 的 数字 (Python 中 
decimal.Decimal 类 的 实例 ) ， 这 样 上 述 公 式 就 能 完好 运行 。 
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但 是 在 Java 中 ， 如 果 把 float 换 成 精度 不 定 的 BigDecimal, LARRA PAZARA, 
为 中 级 运算 符 只 支持 基本 类 型 。 在 Java 中 ， 支 持 BigDecimal 数字 的 公式 要 这 样 写 : 


BigDecimal interest = principal.multiply(BigDecimal.ONE.add(rate) 
.pow(periods).subtract(BigDecimal.ONE)); 


BR, RAPRBLAMAARDR, EVIKA Rm, PATILP RBH 
符 表示 法 支持 非 基本 类 型 ， 运 算 符 必须 能 重 载 。Python 是 门 高 级 语言 ， 易 于 使 用 ， 支 
持 运算 符 重 载 可 能 就 是 它 这 些 年 在 科学 计算 领域 得 到 广泛 使 用 的 主要 原因 。 

当然 ， 语 言 不 支持 运算 符 重 载 世 有 好 处 。 对 极为 重视 性 能 和 安全 的 低级 系统 语言 而 言 ， 
这 无 疑 是 正确 的 决定 。 新 近 出 现 的 Go 语言 在 这 方面 效仿 了 Java， 它 不 支持 运算 符 重 载 。 
但 是 ， 重 载 的 运算 符 ， 如 果 使 用 得 当 ， 的 确 能 让 代码 更 易于 阅读 和 编写 。 对 现代 的 高 
级 语言 来 说 ， 这 是 个 好 功能 。 

情 性 计算 一 将 

如 果 仔 细 看 示例 13-9 中 的 调用 跟踪 ， 会 发 现 生 成 器 表达 式 做 惰性 计算 的 证 据 。 示 例 
13-19 再 次 列 出 那些 调用 跟踪 ， 不 过 加 上 了 一 些 标注 。 





示例 13-19 与 示例 13-9 一 样 
>>> vi + 'ABC' 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
File "vector_v6.py", line 329, in __add__ 
return Vector(a + b for a, b in pairs) #@ 
File "vector_v6.py", line 243, in __init__ 
self._components = array(self.typecode, components) # @ 
File "vector_v6.py", line 329, in <genexpr> 
return Vector(a + b for a, b in pairs) # © 
TypeError: unsupported operand type(s) for +: 'float' and 


@ Vector 调用 的 components 参数 是 一 个 生成 器 表达 式 。 这 一 步 没 问题 。 
@ components 生成 器 表达 式 传 给 array 构造 方法 。 在 这 里 ，Python 尝试 迭代 生成 器 表 
达 式 ， 因 此 会 计算 第 一 个 元 素 at b。 这 里 抛 出 了 TypeError。 
异常 向 上 置 泡 ， 到 达 Vector 构造 方法 调用 ， 在 这 里 报告 出 来 。 
这 表明 ， 生 成 器 表达 式 在 最 后 时 刻 才 会 计算 ， 而 不 是 在 源码 中 定义 它 的 位 置 计算 。 
与 之 相 比 ， 如 果 像 Vector([a + b for a, b in pairs]) 这 样 调用 Vector 构造 方法 ， 
那么 这 里 就 会 抛 出 异常 ， 为 列表 推导 会 尝试 构建 一 个 列表 ， 以 便 作 为 参数 传 给 
Vector() 调用 。 此 时 ， 根 本 不 会 触及 Vector._init _ 的 定义 体 。 
第 14 章 会 详细 讨论 生成 器 表达 式 ， 但 是 我 不 想 让 示例 中 偶然 出 现 的 情 性 计算 迹象 漏 过 去 。 


str 














HE 13: 我 的 朋友 Mario Domenech Goulart, CHICKEN Scheme 编译 器 (http://www.call-cc.org) 的 核心 开发 者 ， 
可 能 不 会 同意 这 一 说 法 。 





第 五 部 分 





控制 流程 


第 14 章 





可 迭代 的 对 


象 、 和 迭代 器 和 生成 器 


当 我 在 自己 的 程序 中 发 现 用 到 了 模式 ， 我 觉得 这 就 表明 某 个 地 方 出 错 了 。 程 序 的 形 
式 应 该 仅仅 反映 它 所 要 解决 的 问题 。 代 码 中 其 他 任何 外 加 的 形式 部 是 一 个 信号 ，( 至 


少 对 我 来 说 ) 表明 我 对 间 题 的 抽象 还 不 够 深 





这 通常 意味 着 自己 正在 手动 完成 的 


事情 ， 本 应 该 通过 写 代码 来 让 宏 的 扩展 自动 实现 。， 











Paul Graham? 
Lisp 黑客 和 风险 投资 人 





和 迭代 是 数据 处 理 的 基石 。 扫 描 内 存 中 放 不 下 的 数据 集 时 ， 我 们 要 找到 一 种 情 性 获取 数据 
项 的 方式 ， 即 按 需 一 次 获取 一 个 数据 项 。 这 就 是 迭代 器 模式 (Iterator pattern)。 本 章 说 明 
Python 语言 是 如 何 内 置 迭 代 器 模式 的 ， 这 样 就 避免 了 自己 手动 去 实现 。 


与 Lisp (Paul Graham 最 喜欢 的 语言 ) 不 同 ，Python HAZ, KeA TAR HAREN, 
需要 改动 语言 本 身 。 为 此 ，Python 2.2 (2001 年 ) 加 入 了 yield 关键 字 。” 这 个 关键 字 用 于 
构建 生成 器 (generator), REHBERE — EE. 


所 有 生成 器 都 是 迭代 器 ， 因 为 生成 器 完全 实现 了 迭代 器 接口 。 不 过 ， 根 据 《 设 












































计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 定义 ， 友 代 器 用 于 从 集合 中 取出 
元 素 ， 而 生成 器 用 于 “凭空 ”生成 元 素 。 通 过 斐 波 纳 契 数列 能 很 好 地 说 明 二 者 
之 间 的 区 别 : 辈 波 纳 契 数列 中 的 数 有 无 穷 个 ， 在 一 个 集合 里 放 不 下 。 不 过 要 知 


道 ， 在 Python 社 























区 中 ， 大 多 数 时 候 都 把 和 欠 代 器 和 生成 器 视 作 同一 概念 。 


注 1: 摘自 一 篇 博客 文章 ,“Revenge of the Nerds”(“ 书 呆 子 的 复仇 ”，http:/www.paulgraham.com/icad.html)。 


注 2: Paul Graham 的 文集 《墨客 与 
115-32656-0。 一 一 编者 注 




















画家 : 来 自 计 算 机 时 代 的 高 见 》 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7- 





注 3: Python 2.2 的 用 户 可 以 使 用 from __future__ import generators 指令 获取 yield 关键 字 ， 在 Python 2.3 











H, yield 关键 字 默 认可 用 。 
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在 Python 3 中 ， 生 成 器 有 广泛 的 用 途 。 现 在 ， 即 使 是 内 置 的 range() 函数 也 返回 一 个 类 似 
生成 器 的 对 象 ， 而 以 前 则 返回 完整 的 列表 。 如 果 一 定 要 让 range() 函数 返回 列表 ， 那 么 必 
须 明 确 指 明 (例如 ，list(range(100)))。 


在 Python 中 ， 所 有 集合 都 可 以 选 代 。 在 Python BSA, RAIA EE: 
。 for 循环 

。 构建 和 扩展 集合 类 型 

。 逐 行 志 历 文本 文件 

。 列表 推导 、 字 典 推导 和 集合 推导 


























。 元 组 拆 包 
。 调用 函数 时 ， 使 用 * 拆 包 实 参 
本 章 涵 盖 以 下 话题 : 


。 语言 内 部 使 用 iter(...) 内 置 国 数 处 理 可 迭代 对 象 的 方式 
。 如 何 使 用 Python 实现 经 典 的 迭代 器 模式 

。 详细 说 明生 成 器 函数 的 工作 原理 
。 如 何 使 用 生成 器 函数 或 生成 器 表达 式 代 替 经 典 的 迭代 器 

。 如 何 使 用 标准 库 中 通用 的 生成 器 函数 

。 如 何 使 用 yield from 语句 合并 生成 器 

。 案例 分 析 : 在 一 个 数据 库 转 换 工具 中 使 用 生成 器 函数 处 理 大 型 数据 集 
。 为 什么 生成 器 和 协 程 看 似 相 同 ， 实 则 差别 很 大 ， 不 能 混淆 


首先 来 研究 iter(.….) 国 数 如 何 把 序列 变 得 可 以 欠 代 。 


14.1 Sentence 类 第 1 版 : 单词 序列 


我 们 要 实现 一 个 Sentence 类 ， 以 此 打开 探索 可 迄 代 对 象 的 旅程 。 我 们 向 这 个 类 的 构造 方法 
传人 包含 一 些 文本 的 字符 串 ， 然 后 可 以 逐个 单词 欠 代 。 第 1 版 要 实现 序列 协议 ， 这 个 类 的 
对 象 可 以 狗 代 ， 因 为 所 有 序列 都 可 以 迭代 一 一 这 一 点 前 面 已 经 说 过 ， 不 过 现在 要 说 明 真 正 
的 原因 。 


示例 14-1 定义 了 一 个 Sentence 类 ， 通 过 索引 从 文本 中 提取 单词 。 
示例 14-1 sentence.py: 把 句子 划分 为 单词 序列 


import re 
import reprlib 






































RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init (self, text): 
self.text = text 
self.words = RE_WORD.findall(text) © 
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def _ getitem (self, index): 
return self.words[index] @ 


def _len_(self): © 
return Len(self.words) 


def _ repr__(self): 
return 'Sentence(%s)' % reprlib.repr(self.text) @ 


Q re. findall 函数 返回 一 个 字符 串 列 表 ， 里 面 的 元 素 是 正则 表达 式 的 全 部 非 重 合 匹 配 。 

@ self.words 中 保存 的 是 .findall 函数 返回 的 结果 ， 因 此 直接 返回 指定 索引 位 上 的 单词 。 

O 为 了 完善 序列 协议 ， RIKAT len Hk, 不过， 为 了 让 对 象 可 以 迭代 ， 没 必要 实 
现 这 个 方法 。 

© reprlib.repr 这 个 实用 函数 用 于 生成 大 型 数据 结构 的 简略 字符 串 表示 形式 。* 

上 默认 情况 下 ，reprlib.repr 国 数 生成 的 字符 串 最 多 有 30 个 字符 。Sentence 类 的 用 法 参见 

示例 14-2 中 的 控制 台 会 话 。 





























示例 14-2 测试 Sentence SK Pile Bik fC 

>>> s = Sentence('"The time has come," the Walrus said,') #@ 

>>> S 

Sentence('"The time ha... Walrus said,') # @ 

>>> for word ins: # © 
s print(word) 
The 
time 
has 
come 
the 
Walrus 
said 
>>> list(s) #0 
['The', 'time', 'has', 'come', 'the', 'Walrus', 'said'] 


O 传 和 一 个 字符 串 ， 创 建 一 个 Sentence 实例 。 

O E, repr 方法 的 输出 中 包含 reprlib. repr 方法 生成 的 .….。 

© Sentence 实例 可 以 迭代 ， 稍 后 说 明 原 因 。 

O 因为 可 以 迭代 ， 所 以 Sentence 对 象 可 以 用 于 构建 列表 和 其 他 可 达 代 的 类 型。 

在 接 下 来 的 几 页 中 ， 我 们 还 要 开发 其 他 Sentence 类 ， 而 且 都 能 通过 示例 14-2 中 的 测试 。 
不 过 ， 示 例 14-1 中 的 实现 与 其 他 实现 都 不 同 ， 因 为 这 一 版 Sentence 类 也 是 序列 ， 可 以 按 
索引 获取 单词 : 





























注 4: 首次 使 用 reprlib 模块 是 在 10.2 市 。 
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所 有 Python 程序 员 都 知道 ， 序 列 可 以 和 迭代。 下面 说 明 有 具体 的 原因 。 


序列 可 以 和 迭代 的 原因 : iter ey ey 
解释 器 需要 奖 代 对 象 x 时， 会 自动 调用 tter(x)。 
内 置 的 iter 函数 有 以 下 作用 。 


(1) 检查 对 象 是 否 实现 了 iter 方法 ， 如 果实 现 了 就 调用 它 ， 获 取 一 个 迭代 器 。 

(2) 如 果 没 有 实现 _iter__ 方法 ,但 是 实现 了 __getitem__ 方 法，Python 会 创建 一 个 迭代 
器 ， 尝 试 按 顺 序 (从 索引 0 开始 ) 获取 元 素 。 

(3) 如 果 尝 试 失败 ，Python 抛 出 TypeError 异常 ， 通 常会 提示 “C object is not iterable” (C 
对 象 不 可 迭代 ) ， 其 中 C 是 目标 对 象 所 属 的 类 。 


任何 Python 序列 都 可 和 迭代 的 原因 是 ， 它 们 都 实现 了 _getitem _ 方 法。 其实， 标准 的 序 
列 也 都 实现 了 iter 方法， 因此 你 也 应 该 这 么 做 。 之 所 以 对 __getitem__ 方 法 做 特殊 处 
理 ， 是 为 了 向 后 兼容 ， 而 未 来 可 能 不 会 再 这 么 做 (不 过 ， 写 作 本 书 时 还 未 弃 用 )。 


11.2 节 提 到 过 ， 这 是 鸭子 类 型 (duck typing) 的 极端 形式 : 不 仅 要 实现 特殊 的 _iter_ 方 
法 ， 还 要 实现 _getitem _ 方法， 而 且 _getitem “方法 的 参数 是 从 9 开始 的 整数 (int), 
这 样 才 认为 对 象 是 可 迭代 的 。 
在 白 鹅 类 型 (goose-typing) 理论 中 ， 可 迭代 对 象 的 定义 简单 一 些 ， 不 过 没 那 么 灵活 : 如 果 
实现 了 iter Fk, MARU AMR TIA. WEIS, Nae pea 也 不 用 注册 ， 
因为 abc. Iterable 类 实现 了 __subclasshook_ 方法 ， 如 11.10 节 所 述 。 下 面 举 个 例子 : 

>>> class Foo: 


def __iter__(self): 
pass 


















































>>> from collections import abc 
>>> issubclass(Foo, abc.Iterable) 
True 

>>> f = Foo() 

>>> isinstance(f, abc.Iterable) 
True 


不 过 要 注意 ， 虽 然 前 面 定义 的 Sentence X AE AT LAE RAY, (HSM 7c YK wh ek issubclass 
(Sentence, abc.Iterable) 测试 。 


从 Python 3.4 开始 ， 检 查 对 象 x HEBER, BEWARE: 调用 iter (x) 

PBL, ANA AN TGR AR, PEMD BE TypeError 异常 。 这 比 使 用 isinstance(x, 
abc.Iterable) 更 准确 ， 因 为 iter(x) 函数 会 考虑 到 遗留 的 _getitem_ 方 
法 ， 而 abc.Iterable 类 则 不 考虑 。 


























迭代 对 象 之 前 显 式 检查 对 象 是 否 可 迭代 或 许 没 必要 ， 毕 竞 尝试 从 代 不 可 赤 代 的 对 象 时 ， 
Python 抛 出 的 异常 信息 很 明确 : TypeError: 'C' object is not iterable。 如 果 除 了 抛 出 
TypeError 异常 之 外 还 要 做 进一步 的 处 理 ， 可 以 使 用 try/except 块 ， 而 无 需 显 式 检 查 。 如 
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果 要 保存 对 象 ， 等 以 后 再 迭代 ， 或 许可 以 显 式 检查 ， 因 为 这 种 情况 可 能 需要 尽早 捕获 错误 。 
下 一 详 述 可 迭代 的 对 象 和 迭代 器 之 间 的 关系 。 


14.2 ”可 和 迭代 的 对 象 与 迭代 器 的 对 比 

从 14.1.1 节 的 解说 可 以 推 知 下 述 定 义 。 

TARGYA 
使 用 iter H E RACER RRR, WER SCT ARIE LGA BHJ iter 
HE, WAMR RE TIAN. FEIER LLE; 实现 了 _getitem 方法 ,而 且 其 参 
数 是 从 零 开始 的 索引 ， 这 种 对 象 也 可 以 迭代 。 

我 们 要 明确 可 迭代 的 对 象 和 选 代 器 之 间 的 关系 ; Python 从 可 和 迭代 的 对 象 中 获取 和 迭代 器 。 

下 面 是 一 个 简单 的 for 循环 ， 和 迭代 一 个 字符 串 。 这 里 ， 字 符 串 'ABC' 是 可 迭代 的 对 象 。 背 

后 是 有 和 迭代 器 的 ， 只 不 过 我 们 看 不 到 














>>> s = 'ABC' 
>>> for char in s: 
print(char) 
B 
C 
如 果 没 有 for 语句 ， 不 得 不 使 用 while 循环 模拟 ， 要 像 下 面 这 样 写 : 
>>> s = 'ABC' 


>>> it = iter(s) # © 
>>> while True: 
try: 
print(next(it)) #@ 
except StopIteration: # © 


del it #@ 
break # O 
A 
B 
C 


@ (EFA FTIR RAS RER it, 

O Ait EK Kat EIH next 函数 ， 获 取 下 一 个 字符 。 

O WRAL T , ERAS AHO StopIteration 异常 。 
O 释放 对 it MSA, MERRER. 

O 退出 循环 。 


StopIteration 异常 表明 迭代 器 到 头 了 。Python 语言 内 部 会 处 理 for 循环 和 其 他 迭代 上 下 
文 〈 如 列表 推导 、 元 组 拆 包 ， 等 等 ) 中 的 StopIteration 异常 。 


标准 的 迭代 器 接口 有 两 个 方法 。 
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__next__ 
返回 下 一 个 可 用 的 元 素 ， 如 果 设 有 元 素 了 ， 抛 出 StopIteration 异常 。 
__iter__ 
返回 self, LUE Æ DAE AAR EA ae, BANE for 循环 中 。 


这 个 接口 在 collections.abc.Iterator 抽象 基 类 中 制定 。 这 个 类 定义 了 next 抽象 方法 ， 
而 且 继承 自 Iterable 类 ; _iter__ 抽象 方法 则 在 Iterable 类 中 定义 。 如 图 14-1 所 示 。 

















































1 
1 
构建 | 
1 
1 





next eek . iter (self): 
iter ee ce return self 


14-1; Iterable 和 Iterator 抽象 基 类 。 以 和 斜体 显示 的 是 抽象 方法 。 具 体 的 Iterable._iter_ 方 
法 应 该 返回 一 个 Iterator 实例 。 具 体 的 Iterator 类 必须 实现 _next_ 方法 。Iterator._ 
iter “方法 直接 返回 实例 本 身 


Iterator 抽象 基 类 实现 _iter ”方法 的 方式 是 返回 实例 本 身 (return self)。 这 样 ， 在 需 
要 可 迭代 对 象 的 地 方 可 以 使 用 友 代 器。 示例 14-3 是 abc. Iterator 类 的 源码 。 




















示例 14-3 abc.Iterator 类 ,摘自 Lib/_collections_abc.py (https://hg.python.org/cpython/file/3.4/ 
Lib/_collections_abc.py#193 ) 


class Iterator(Iterable): 
-slots = () 


@abstractmethod 

def _next_ (self): 
'Return the next item from the iterator. When exhausted, raise StopIteration' 
raise StopIteration 


def _iter_ (self): 
return self 


@classmethod 
def _ subclasshook_ (cls, C): 
if cls is Iterator: 
if (any("__next__" in B.__dict__ for B in C. mro ) and 
any("__iter__" in B. dict__ for B in C.__mro_)): 
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return True 


return NotImpLemented 








在 Python 3 FH, Iterator 抽象 基 类 定义 的 抽象 方法 是 it._next_()， 而 在 
Python 2 中 是 it.next()。 一 如 既往 ， 我 们 应 该 避免 直接 调用 特殊 方法 ， 使 用 
next(it) 即 可 ， 这 个 内 置 的 函数 在 Python 2 和 Python 3 中 都 能 使 用 。 


在 Python 3.4 1, Lib/types.py (https://hg.python.org/cpython/file/3.4/Lib/types.py) 模块 的 源 
码 里 有 下 面 这 段 注释 : 
# Iterators in Python aren't a matter of type but of protocol. A large 


and changing number of builtin types implement *some* flavor of 
Don't check the type! Use hasattr to check for both 


# 
# iterator. 
# "iter _ 














and "__next__" attributes instead. 


其 实 ， 这 就 是 abc. Iterator 抽象 基 类 中 _subclasshook _ 方 法 的 作用 (参见 示例 14-3). 


考虑 到 Lib/types.py 中 的 建议 ， 以 及 Lib/_collections_abc.py 中 的 实现 逻辑 ， 检 
查 对 象 x 是 否 为 迭代 器 最 好 的 方式 是 调用 isinstance(x, abc.Iterator), 7 
4a F Iterator.__subclasshook__ 方法 ， 即 使 对 象 x 所 属 的 类 不 是 Iterator 
类 的 真实 子 类 或 虚拟 子 类 ， 也 能 这 样 检 查 。 


再 看 示例 14-1 中 定义 的 Sentence 类 ,在 Python 控制 台中 外 
以 及 如 何 使 用 next(...) 国 数 使 用 友 代 器 ， 


Sentence('Pig and Pepper') # @ 
iter(s3) #@ 


国 数 构建 迭代 器 ， 


>>> S3 
>>> it 


>>> it # doctest: +ELLIPSIS 
<iterator object at 0x...> 
>>> next(it) # © 


'Pig' 


>>> next(it) 


"and ' 


>>> next(it) 


"Pepper ' 


>>> next(it) #@ 
Traceback (most recent call last): 


StopIteration 
>>> list(it) # O 


[] 


>>> list(iter(s3)) # © 

['Pig', 'and', 'Pepper'] 
O 创建 一 个 sentence 实例 s3, WA 3 个 单词 。 
@ 从 s3 PARE Cae o 


© 调用 next(it) 
O 没有 单词 了 ， 


， 获 取 下 一 个 单词 。 
因此 迭代 器 抛 出 StopIteration 异常 。 





bŒ 
Ae 





地 看 出 如 何 使 用 iter(...) 





O 到 头 后 ， 和 迭代 器 没 用 了 。 
O 如 果 想 再 次 迭代 ， 要 重新 构建 迭代 器 。 


HARRER next 和 _ iter 两 个 方法 ， 所 以 除了 调用 next() 方法 ， 以 及 捕获 
StopIteration 异常 之 外 ， 没 有 办 法 检查 是 否 还 有 遗留 的 元 素 。 此 外 ， 也 没有 办 法 “还 原 ” 
氨 代 器 。 如 果 想 再 次 迭代 ， 那 就 要 调用 iter(...)， 传 人 之 前 构建 迭代 器 的 可 迭代 对 象 。 
传 入 迭代 器 本 身 没 用 ， 因 为 前 面 说 过 Iterator._iter__ 方法 的 实现 方式 是 返回 实例 本 身 ， 
所 以 传 入 迭代 器 无 法 还 原 已 经 耗 尽 的 迭代 器 。 
根据 本 节 的 内 容 ， 可 以 得 出 近代 器 的 定义 如 下 。 
RS 
ERB EMM MR: 实现 了 无 参数 的 _next “方法 ， 返 回 序列 中 的 下 一 个 元 素 ， 如 
果 设 有 元 素 了 ， 那 么 抛 出 StopIteration 异常 。Python PARRA EKM Y _iter_ Y 
法 ， 因 此 和 迭代 器 也 可 以 迁 代 。 
因为 内 置 的 iter(...) 函数 会 对 序列 做 特殊 处 理 ， 所 以 第 1 版 Sentence 类 可 以 迭代 。 接 下 
来 要 实现 标准 的 可 迭代 协议 。 


14.3 Sentence 类 第 2 版 : 典型 的 迭代 器 


第 2 版 Sentence 类 根据 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 给 出 的 模型 ， 实 现 
典型 的 迭代 器 设计 模式 。 注 意 ， 这 不 符合 Python 的 习惯 做 法 ， 后 面 重 构 时 会 说 明 原 因 。 不 
过 ， 通 过 这 一 版 能 明确 可 迭代 的 集合 和 友 代 器 对 象 之 间 的 关系 。 

示例 14-4 中 定义 的 Sentence 类 可 以 欠 代 ， 因 为 它 实 现 了 特殊 的 _iter 方法， 构建 并 返 
回 一 个 SentenceIterator 实例 .。《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 就 是 这 样 
描述 迭代 器 设计 模式 的 。 

这 里 之 所 以 这 么 做 ， 是 为 了 清楚 地 说 明 可 迭代 的 对 象 和 迭代 器 之 间 的 重要 区 别 ， 以 及 二 者 
之 间 的 联系 。 


示例 14-4 sentence_iter.py: EHKI RINKI Sentence 类 
import re 
import reprlib 














































































































RE_WORD = re.compile('\w+') 


class Sentence: 


def __ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 


def _ repr__(self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 
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def _iter_(self): © 
return SentenceIterator(self.words) @ 


class SentenceIterator: 


def _ init__(self, words): 
self.words = words © 
self.index = 0 @ 


def __next__(self): 
try: 
word = self.words[self.index] © 
except IndexError: 
raise StopIteration() © 
self.index += 1 @ 
return word @ 


def _iter_(self): © 
return self 


O 与 前 一 版 相 比 ， 这 里 只 多 了 一 个 _iter 方法 。 这 一 版 没有 __getitem_ 方法 ,为 的 是 
明确 表明 这 个 类 可 以 友 代 ， 因 为 实现 了 iter 方法。 

O WRH RR, iter 方法 实例 化 并 返回 一 个 返 代 器 

© SentenceIterator 实例 引用 单词 列表 。 

O self.index 用 于 确定 下 一 个 要 获取 的 单词 。 

© 获取 self.index 索引 位 上 的 单词 。 

O 如 果 self.index 索引 位 上 没有 单词 ， 那 么 抛 出 StopIteration 异常 。 

@ 递增 seLf.index 的 值 。 

© 返回 单词 。 

© 实现 self._ iter_ 方法 。 

示例 14-4 中 的 代码 能 通过 示例 14-2 中 的 测试 。 

注意 ， 对 这 个 示例 来 说 ， 其 实 没 必 要 在 SentenceIterator 类 中 实现 _iter 方法 ,不 过 这 

么 做 是 对 的 ， 因 为 迭代 器 应 该 实现 _next_ FU iter Pa AVE, Mm Aix Ze LEK eat 

通过 issubclass(SentenceInterator, abc.Iterator) 测试 。 如 果 让 SentenceIterator 类 继承 

abc.Iterator 类 ， 那 么 它 会 继承 abc.Iterator._iter__ 这 个 具体 方法 。 


一 版 的 工作 量 很 大 (对 懒惰 的 Python 程序 员 来 说 确实 如 此 )。 注 意 ，SentenceIterator 
类 的 大 多 数 代 码 都 在 处 理 迭 代 器 的 内 部 状态 。 稍 后 会 pe hit, 在 此 之 前 我 们 
先 稍微 离 题 ， 讨 论 一 个 看 似 合理 实则 错误 的 实现 捷径 。 


PA 坏 主 意 


构建 可 迭代 的 对 象 和 迭代 器 时 经 常会 出 现 错误 ， 原 因 是 混 请 了 二 者 。 要 知道 ， 可 迭代 的 对 
RAT iter 方法 ， pei aide ; 而 迭代 器 要 实现 _next__ 方法 ， 
返回 单个 元 素 ， 此 外 还 要 实现 iter 方法 ， 返 mee FRE TAD 
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FAL, i FR AT LAER, (ELE BT ACHR RAN EE Reo 
BRT _iter_ 方法 之 外 ， 你 可 能 还 想 在 Sentence 类 中 实现 _next 方法， 让 Sentence 实 
例 既 是 可 迭代 的 对 象 ， 也 是 自身 的 迭代 如 。 可 是 ， 这 种 想法 非常 糟糕 。 根 据 有 大 量 Python 
代码 审查 经 验 的 Alex Martelli 所 说 ， 这 也 是 常见 的 反 模 式 。 
《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 讲解 迭代 器 设计 模式 时 ， 在 “适用 性 ”一 
节 中 说 : ` 
选 代 器 模式 可 用 来 : 
。 访问 一 个 聚合 对 象 的 内 容 而 无 需 暴 露 它 的 内 部 表示 
。 支持 对 聚合 对 象 的 多 种 遍历 
。 为 遍历 不 同 的 聚合 结构 提供 一 个 统一 的 接口 ( 即 支 持 多 态 选 代 ) 
为 了 “支持 多 种 遍历 "， 必 须 能 从 同一 个 可 迭代 的 实例 中 获取 多 个 独立 的 选 代 器 ， 而 且 各 
个 迭代 器 要 能 维护 自身 的 内 部 状态 ， 因 此 这 一 模式 正确 的 实现 方式 是 ， 每 次 调用 iter (my_ 
iterable) 都 新 建 一 个 独立 的 迭代 器 。 这 就 是 为 什么 这 个 示例 需要 定义 Sentencelterator 类 。 
可 迭代 的 对 象 一 定 不 能 是 自身 的 迭代 器 。 也 就 是 说 ， 可 和 迭代 的 对 象 必须 实现 
一 iter_ 方 法， 但 不 能 实现 _next “方法 。 
A Fill, Ree PAB DORR. Wetter) _iter 方法 应 该 返回 自身 。 





























至 此 ， 我 们 演示 了 如 何 正确 地 实现 典型 的 迭代 器 模式 。 本 市 至 此 告 一 段 藻 ， 下 一 布展 示 如 
何 使 用 更 符合 Python 习惯 的 方式 实现 Sentence 类 。 


14.4 Sentence 类 第 3 版 : 生成 器 函数 


实现 相同 功能 ， 但 却 符合 Python 习惯 的 方式 是 ， 用 生成 器 函数 代替 Sentencelterator 类 。 
先 看 示例 14-5， 然 后 详细 说 明生 成 器 函数 。 


示例 14-5 sentence_gen.py: 使 用 生成 器 函数 实现 Sentence 类 
import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def __ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 








注 5:《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 第 172 页 。 
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def _ repr__(self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter__ (self): 
for word in self.words: @ 
yield word @ 
return © 


# 完成 ! O 

@ i&fK self.words, 

@ 产 出 当前 的 word, 

O 这 个 return 语句 不 是 必要 的 ;这 个 函数 可 以 直接 “落空 ”， 自 动 返 回 。 不 管 有 没有 
return 语句 ， 生 成 器 函数 都 不 会 抛 出 StopIteration 异常 ， 而 是 在 生成 完全 部 值 之 后 会 
直接 退出 。" 

O 不 用 再 单独 定义 一 个 迭代 器 类 ! 

我 们 又 使 用 一 种 不 同 的 方式 实现 了 Sentence 类 ， 而 且 也 能 通过 示例 14-2 中 的 测试 。 


在 示例 14-4 定义 的 Sentence 类 中 ，_iter ”方法 调用 SentenceIterator 类 的 构造 方法 
创建 一 个 迭代 器 并 将 其 返回 。 而 在 示例 14-5 中 ， 迫 代 器 其 实 是 生成 器 对 象 ， 每 次 调用 
iter ”方法 都 会 自动 创建 ， 因 为 这 里 的 iter 方法 是 生成 器 函数 。 

下 面 全 面 说 明生 成 器 函数 。 


生成 器 函数 的 工作 原理 


只 要 Python 函数 的 定义 体 中 有 yield 关键 字 ， 该 函数 就 是 生成 器 函数 。 调 用 生成 器 函数 
时 ， 会 返回 一 个 生成 器 对 象 。 也 就 是 说 ， 生 成 器 函数 是 生成 器 工厂 。 
普通 的 函数 与 生成 器 函数 在 句法 上 唯一 的 区 别 是 ， 在 后 者 的 定义 体 中 有 
yield 关键 字 。 有 些 人 认为 定义 生成 器 函数 应 该 使 用 一 个 新 的 关键 字 ， 例 如 
gen， 而 不 该 使 用 def， 但 是 Guido 不 同意 。 他 的 理由 参见 “PEP 255—Simple 


7 
o 







































































Generators” (https://www.python.org/dev/peps/pep-0255/) 





下 面 以 一 个 特别 简单 的 函数 说 明生 成 器 的 行为 : ” 


>>> def gen 123(): # © 
bee yield 1 #@ 
yield 2 
yield 3 

















注 6: Alex Martelli 审查 这 上段 代码 时 建议 简化 这 个 方法 的 定义 体 ， 直 接 使 用 return iter(seLf.words)。 当 然 ， 
他 是 对 的 ， 毕 竞 调 用 _iter_ 方法 得 到 的 就 是 迭代 器 。 不 过 ， 这 里 我 用 的 是 for 循环 ， 而 且 用 到 了 
yield 关键 字 ， 这 样 做 是 为 了 介绍 生成 器 函数 的 句法 。 下 一 节 会 详细 说 明 。 

注 7: 有 时 ， 我 会 在 生成 器 函数 的 名 称 中 加 上 gen 前 级 或 后 级 ， 不 过 这 不 是 习惯 做 法 。 显 然 ， 如 果实 现 的 是 
迭代 器 ， 那 就 不 能 这 么 做 ， 因 为 所 需 的 特殊 方法 必须 命名 为 iter. 

TE 8: 感谢 David Kwast 建议 使 用 这 个 示例 。 
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>>> gen_123 # doctest: +ELLIPSIS 

<function gen_123 at 0x...> # © 

>>> gen_123() # doctest: +ELLIPSIS 

<generator object gen_123 at 0x...> #@ 

>>> for i in gen_123(): # O 
print(i) 

1 

2 

3 

>>> g = gen_123() # O 

>>> next(g) # Q 

1 

>>> next(g) 

2 

>>> next(g) 

3 


>>> next(g) # O 
Traceback (most recent call last): 


StopIteration 


O 只 要 Python 函数 中 包含 关键 字 yteLd， 该 国 数 就 是 生成 器 函数 。 

O 生成 器 函数 的 定义 体 中 通常 都 有 循环 ， 不 过 这 不 是 必要 条 件 ， 这 里 我 重复 使 用 3 次 yield, 
© 仔细 看 ，gen_123 是 函数 对 象 。 

O 但 是 调用 时 ，gen_123() 返回 一 个 生成 器 对 象 。 

O 生成 器 是 迭代 器 ， 会 生成 传 给 yield 关键 字 的 表达 式 的 值 。 

O 为 了 仔细 检查 ， 我 们 把 生成 器 对 象 赋值 给 g. 

O 因为 9 是 迭代 器 ， 所 以 调用 next(g) 会 获取 yield 生成 的 下 一 个 元 素 。 

O 生成 器 函数 的 定义 体 执行 完毕 后 ， 生 成 器 对 象 会 抛 出 StopIteration 异常 。 


生成 器 函数 会 创建 一 个 生成 器 对 象 ， 包 装 生成 器 函数 的 定义 体 。 把 生成 器 传 给 next(...) 
函数 时 ， 生 成 器 了 国 数 会 向 前 ， 执 行 函 数 定义 体 中 的 下 一 个 yield 语句 ， 返 回 产 出 的 值 ， 并 
在 函数 定义 体 的 当前 位 置 暂停 。 最 终 ， 函 数 的 定义 体 返 回 时 ， 外 层 的 生成 器 对 象 会 抛 出 
StopIteration 异常 一 一 这 一 点 与 运 代 器 协议 一 致 。 


我 觉得 ， 使 用 准确 的 词语 描述 从 生成 器 中 获取 结果 的 过 程 ， 有 助 于 理解 生成 
器 。 注 意 ， 我 说 的 是 产 出 或 生成 值 。 如 果 说 生成 器 “返回 ” 值 ， 就 会 让 人 难 
以 理解 。 函 数 返回 值 ， 调 用 生成 器 函数 返回 生成 器 ， 生 成 器 产 出 或 生成 值 。 
生成 器 不 会 以 常规 的 方式 “返回 ” 值 : 生成 器 函数 定义 体 中 的 return 语句 会 
触发 生成 器 对 象 抛 出 StopIteration 异常 。” 


















































示例 14-6 使 用 for 循环 更 清楚 地 说 明了 生成 器 国 数 定义 体 的 执行 过 程 。 





注 9: 在 Python 33 之 前 ， 如 果 生 成 器 函数 中 的 return 语句 有 返回 值 ， 那 么 会 报错 。 现 在 可 以 这 么 做 ， 不 过 
return 语句 仍 会 导致 StopIteration 异常 抛 出 。 调 用 方 可 以 从 异常 对 象 中 获取 返回 值 。 可 是 ， 只 有 把 生 
成 器 函数 当成 协 程 使 用 时 ， 这 么 做 才 有 意义 ， 详 情 参 见 16.6 节 。 
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示例 14-6 ”运行 时 打印 消息 的 生成 器 函数 
>>> def gen AB(): #@ 
print('start') 


yield 'A' #@ 
print('continue' ) 
yield 'B' #0 
print('end.') #0 

>>> for c in gen_AB(): # © 
print('-->', c) #@ 

start @ 

-->A 日 

continue © 

-->B 四 

end. @ 

>>> 四 





O 定义 生成 器 函数 的 方式 与 普通 的 函数 无 异 ， 只 不 过 要 使 用 yield 关键 字 。 

O 在 for 循环 中 第 一 次 隐 式 调用 next() 函数 时 (序号 @)， 会 打印 'start' ， 然 后 停 在 第 

一 个 yield 语句 ， 生 成 值 'A'。 

© 在 for 循环 中 第 二 次 隐 式 调用 next() 函数 时 ， 会 打印 'continue'， 然 后 停 在 第 二 个 
yield 语句， 生成 值 'B'。 

O 第 三 次 调用 next() 函数 时 ,会 打印 'end.'， 然 后 到 达 函 数 定义 体 的 末尾 ， 导 和 致 生成 器 
HRA, StopIteration 异常 。 

O iki, for 机 制 的 作用 与 9 = iter(gen_AB()) 一 样 ， 用 于 获取 生成 器 对 象 ， 然 后 每 次 
迭代 时 调用 next(g)。 

O 循环 块 打印 --> 和 next(g) 返回 的 值 。 但 是 ， 生 成 器 国 数 中 的 print 函数 输出 结果 之 后 
才 会 看 到 这 个 输出 。 

@ ‘start! 是 生成 器 函数 定义 体 中 print('start') 输出 的 结果 。 

O 生成 器 国 数 定义 体 中 的 yield 'A' 语句 会 生成 值 A， 提 供给 for 循环 使 用 ， 而 A 会 赋值 
给 变量 c， 最 终 输 出 --> A。 

O 第 二 次 调用 next(g)， 继 续 迭 代 ， 生 成 器 函数 定义 体 中 的 代码 由 yield 'A' 前 进 到 yield 
'B'。 文 本 continue 是 由 生成 器 函数 定义 体 中 的 第 二 个 print 函数 输出 的 。 

O yield 'B' 语句 生成 值 B， 提 供给 for 循环 使 用 ， 而 B 会 赋值 给 变量 <， 所 以 循环 打印 
出 --> B。 

O 第 三 次 调用 next(it)， 继 续 进 代 ， 前 进 到 生成 器 函数 的 末尾 。 文 本 end. 是 由 生成 器 函 
数 定义 体 中 的 第 三 个 print 函数 输出 的 。 

O 到 达 生 成 器 了 国 数 定义 体 的 末尾 时 ， 生 成 器 对 象 抛 出 StopIteration 异常 。for 机 制 会 捕 
获 异 常 ， 因 此 循环 终止 时 没有 报错 。 


HE, 希望 你 已 经 知道 示例 14-5 中 Sentence._iter 方法 的 作用 了 : _iter_ 方法 
是 生成 器 函数 ， 调 用 时 会 构建 一 个 实现 了 迭代 器 接口 的 生成 器 对 象 ， 因 此 不 用 再 定义 


SentenceIterator 类 了 。 


这 一 版 Sentence 类 比 前 一 版 简短 多 了 ， 但 是 还 不 够 籁 惰 。 如 今 ， 人 们 认为 惰性 是 好 的 特 
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质 ， 至 少 在 编程 语言 和 API 中 是 如 此 。 情 性 实现 是 指 尽 可 能 延 后 生成 值 。 这 样 做 能 节省 内 
存 ， 而 且 或 许 还 可 以 避免 做 无 用 的 处 理 。 


下 一 市 以 这 种 惰性 方式 定义 Sentence 类 。 


14.5 Sentence 类 第 4 版 : 情 性 实现 


设计 Iterator 接口 时 考虑 到 了 惰性 : next(my_iterator) 一 次 生成 一 个 元 素 。 人 懒惰 的 反 义 
词 是 急迫 ， 其 实 ， 惰 性 求 值 (lazy evaluation) 和 及 早 求 值 (eager evaluation) 是 编程 语言 
理论 方面 的 技术 术语 。 

目前 实现 的 几 版 Sentence 类 都 不 具有 惰性 ， 因 为 _init “方法 急迫 地 构建 好 了 文本 中 的 
单词 列表 ， 然 后 将 其 绑 定 到 self words 属性 上 。 这 样 就 得 处 理 整个 文本 ， 列 表 使 用 的 内 存 
量 可 能 与 文本 本 身 一 样 多 (或许 更 多 ， 这 取决 于 文本 中 有 多 少 非 单词 字符 )。 如 果 只 需 迭 
代 前 儿 个 单词 ， 大 多 数 工 作 都 是 白费 力气 。 

只 要 使 用 的 是 Python 3， 思 索 着 做 某 件 事 有 没有 懒惰 的 方式 ， 答 案 通 常 都 是 肯定 的 。 
re.finditer 国 数 是 re.findall 国 数 的 惰性 版 本 ， 返 回 的 不 是 列表 ， 而 是 一 个 生成 器 ， 按 
需 生 成 re.Matchobject 实例 。 如 果 有 很 多 匹配 ，re.finditer 函数 能 节省 大 量 内 存 。 我 们 
要 使 用 这 个 函数 让 第 4 版 Sentence 类 变 得 懒 情 ， 即 只 在 需要 时 才 生 成 下 一 个 单词 。 代 码 如 
示例 14-7 所 示 。 


示例 14-7 sentence gen2.py: 在 生成 器 函数 中 调用 re.finditer Æ py at PAB, SE BM 
Sentence 类 

































































import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def __ init__(self, text): 
self.text = text © 


def _ repr__(self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def __iter__(self): 
for match in RE_WORD.finditer(self.text): @ 
yield match.group() © 


O 不 再 需要 words 列表 。 

@ finditer 函数 构建 一 个 迭代 器 ， 包 含 self.text 中 匹配 RE_WORD 的 单词 ， 产 出 MatchObject 
实例 。 

© match.group() 方法 从 Matchobject 实例 中 提取 匹配 正则 表达 式 的 具体 文本 。 

生成 器 函数 已 经 极 大 地 简化 了 代码 ， 但 是 使 用 生成 器 表达 式 甚至 能 把 代码 变 得 更 简短 。 
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14.6 Sentence 类 第 5 版 : 生成 器 表达 式 

简单 的 生成 器 函数 ， 如 前 面 的 Sentence 类 中 使 用 的 那个 ( 见 示例 14.7)， 可 以 替换 成 生成 
器 表达 式 。 
生成 器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 ， 不 会 迫切 地 构建 列表 ， 而 是 返回 一 个 生成 
器 ， 按 需 惰性 生成 元 素 。 也 就 是 说 ， 如 果 列 表 推导 是 制造 列表 的 工厂 ， 那 么 生成 器 表达 式 

















就 是 制造 生成 器 的 工厂 。 
示例 14-8 演示 了 一 个 简单 的 生成 器 表达 式 ， 并 且 与 列表 推导 做 了 对 比 。 
示例 14-8 先 在 列表 推导 中 使 用 gen_AB 生成 器 函数 ， 然 后 在 生成 器 表达 式 中 使 用 


>>> def gen_AB(): #@ 

has print('start') 
yield 'A' 
print('continue' ) 
yield 'B' 
print('end.') 








>>> resi = [x*3 for x in gen_AB()] #@ 
start 
continue 
end. 
>>> for i in resi: # © 
print('-->', i) 
--> AAA 
--> BBB 
>>> res2 = (x*3 for x in gen_AB()) # @ 
>>> res2 # @ 
<generator object <genexpr> at 0x10063c240> 
>>> for i in res2: #@ 
print('-->', i) 
start 
--> AAA 
continue 
--> BBB 
end. 


© gen_AB 函数 与 示例 14-6 中 的 一 样 。 


O 列表 推导 迫切 地 返 代 gen_AB() 国 数 生成 的 生成 器 对 象 产 出 的 元 素 : 'A' 和 'B'  。 注 意 ， 








下 面 的 输出 是 start, continue Ail end., 


© 这 个 for 循环 迭代 列表 推导 生成 的 rest 列表 。 

















O 把 生成 器 表达 式 返 回 的 值 赋值 给 res2。 只 需 调 用 gen_AB() 函数 ， 虽 然 调用 时 会 返回 一 




















个 生成 器 ， 但 是 这 里 并 不 使 用 。 
O res2 是 一 个 生成 器 对 象 。 








O RA for 循环 迭代 res2 时 ，gen_AB 函数 的 定义 体 才 会 真正 执行 。for 循环 每 次 迭代 时 
会 隐 式 调用 next(res2)， 前 进 到 gen_AB 函数 中 的 下 一 个 yield 语句 。 注 意 ，gen_AB Al 





数 的 输出 与 for 循环 中 print 函数 的 输出 夹杂 在 一 起 。 
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可 以 看 出 ， 生 成 器 表达 式 会 产 出 生成 器 ， 因 此 可 以 使 用 生成 器 表达 式 进 一 步 减少 Sentence 
类 的 代码 ， 如 示例 14-9 所 示 。 








示例 14-9 sentence_genexp.py: 使 用 生成 器 表达 式 实现 Sentence 类 
import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def __ init__(self, text): 
self.text = text 


def __repr__ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _ iter__(self): 
return (match.group() for match in RE_WORD.finditer(self.text)) 


与 示例 14-7 唯一 的 区 别 是 _iter_ 方 法， 这 里 不 是 生成 器 函数 了 (没有 yield)， 而 是 使 
用 生成 器 表达 式 构建 生成 器 ， 然 后 将 其 返回 。 不 过 ， 最 终 的 效果 一 样 : 调用 iter 方法 
会 得 到 一 个 生成 器 对 象 。 

生成 器 表达 式 是 语法 糖 : 完全 可 以 替换 成 生成 辟 国 数 ， 不 过 有 时 使 用 生成 器 表达 式 更 便 
利 。 下 一 市 说 明生 成 器 表达 式 的 用 途 。 


14.7” 何 时 使 用 生成 器 表达 式 


在 示例 10-16 中 ， 为 了 实现 Vector 类 ,我 用 了 几 个 生成 器 表达 式 , eq, _hash_, _abs_, 
angle, angles, format, _add_ 和 __mul_ 方法 中 各 有 一 个 生成 器 表达 式 。 在 这 些 方法 中 
使 用 列表 推导 也 行 ， 不 过 立即 返回 的 列表 要 使 用 更 多 的 内 存 。 

通过 示例 14-9 可 知 ， 生 成 器 表达 式 是 创建 生成 器 的 简洁 句法 ， 这 样 无 需 先 定义 函数 再 调 
用 。 不 过 ， 生 成 器 函数 灵活 得 多 ， 可 以 使 用 多 个 语句 实现 复杂 的 逻辑 ， 也 可 以 作为 协 程 使 
用 (参见 第 16 章 )。 

遇 到 简单 的 情况 时 ， 可 以 使 用 生成 器 表达 式 ， 因 为 这 样 扫 一 上 腿 就 知道 代码 的 作用 ， 如 
Vector 类 的 示例 所 示 。 

根据 我 的 经 验 ， 选 择 使 用 哪 种 句法 很 容易 判断 : 如 果 生 成 器 表达 式 要 分 成 多 行 写 ， 我 倾向 
于 定义 生成 器 函数 ， 以 便 提高 可 读 性 。 此 外 ， 生 成 器 函数 有 名 称 ， 因 此 可 以 重用 。 
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句法 提示 

如 果 函 数 或 构造 方法 只 有 一 个 参数 ， 传 人 生成 器 表达 式 时 不 用 写 一 对 调用 函 
数 的 括号 ， 再 写 一 对 括号 围 住 生成 器 表达 式 ， 只 写 一 对 括号 就 行 了 ， 如 示 
例 10-16 P __mul__ 方法 对 Vector 构造 方法 的 调用 ， 转 摘 如 下 。 然 而 ， 如 
果 生 成 器 表达 式 后 面 还 有 其 他 参数 ， 那 么 必须 使 用 括号 围 住 ， 否 则 会 抛 出 


SyntaxError 异常 : 









































def _ mul__(self, scalar): 
if isinstance(scalar, numbers.Real): 
return Vector(n * scalar for n in self) 
else: 
return NotImplemented 


目前 所 见 的 Sentence 类 示例 说 明了 如 何 把 生成 器 当 作 典型 的 迭代 器 使 用 ， 即 从 集合 中 获取 
元 素 。 不 过 ， 生 成 器 也 可 用 于 生成 不 受 数 据 源 限制 的 值 。 下 一 市 会 举例 说 明 。 


148 ” 另 一 个 示例 : 等 差 数 列 生 成 器 


典型 的 迭代 器 模式 作用 很 简单 一 一 遍历 数据 结构 。 不 过 ， 即 便 不 是 从 集合 中 获取 元 素 ， 而 
是 获取 序列 中 即时 生成 的 下 一 个 值 时 ， 也 用 得 到 这 种 基于 方法 的 标准 接口 。 例 如 ， 内 置 的 
range 函数 用 于 生成 有 穷 整数 等 差 数 列 (Arithmetic Progression, AP), itertools.count 国 
数 用 于 生成 无 穷 等 差 数列 。 

下 一 市 会 说 明 itertools.count 函数 ， 本 市 探讨 如 何 生 成 不 同 数 字 类 型 的 有 穷 等 差 数 列 。 


下 面 我 们 在 控制 台中 对 稍 后 实现 的 ArithmeticProgression 类 做 一 些 测试 ， 如 示例 14-10 所 
示 。 这 里 ， 构 造 方法 的 签名 是 ArithmeticProgression(begin，step[，end])。range() 函数 
与 这 个 ArithmeticProgression 类 的 作用 类 似 ， 不 过 签名 是 range(start， stop[, step]), 
我 选择 使 用 不 同 的 签名 是 因为 ， 创 建 等 差 数 列 时 必须 指定 公差 (step), mA (end) 是 
可 选 的 。 我 还 把 参数 的 名 称 由 start/stop 改 成 了 begin/end， 以 明确 表明 签名 不 同 。 在 示 
例 14-10 里 的 每 个 测试 中 ， 我 都 调用 了 lst 国 数 ， 用 于 查看 生成 的 值 。 


示例 14-10 ”演示 ArithmeticProgression 类 的 用 法 
>>> ap = ArithmeticProgression(0, 1, 3) 
>>> List(ap) 
[0, 1, 2] 
>>> ap = ArithmeticProgression(1, .5, 3) 
>>> List(ap) 
[1.0, 1.5, 2.0, 2.5] 
>>> ap = ArithmeticProgression(0, 1/3, 1) 
>>> List(ap) 
[0.0, 0.3333333333333333, 0.6666666666666666 | 
>>> from fractions import Fraction 
>>> ap = ArithmeticProgression(@, Fraction(1, 3), 1) 
>>> List(ap) 
[Fraction(0, 1), Fraction(1, 3), Fraction(2, 3)] 
>>> from decimal import Decimal 
>>> ap = ArithmeticProgression(@, Decimal('.1'), .3) 








7 
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>>> list(ap) 
[Decimal('0.0'), Decimal('0.1'), Decimal('0.2')] 


注意 ， 在 得 到 的 等 差 数 列 中 ， 数 字 的 类 型 与 begin 或 step 的 类 型 一 致 。 如 果 需 要 ， 会 根 
据 Python 算术 运算 的 规则 强制 转换 类 型 。 在 示例 14-10 中， 有 int, float, Fraction 和 
Decimal 数字 组 成 的 列表 。 


示例 14-11 列 出 的 是 ArithmeticProgression 类 的 实现 。 























示例 14-11 ArithmeticProgression 类 
class ArithmeticProgression: 


def _ init_ (self, begin, step, end=None): @ 
self.begin = begin 
self.step = step 
self.end = end # None -> 无 穷 数 列 


def __iter__(self): 
result = type(self.begin + self.step)(self.begin) @ 
forever = self.end is None © 
index = 0 
while forever or result < self.end: @ 
yield result 日 
index += 1 
result = self.begin + self.step * index @ 


O _init_ 方法 需要 两 个 参数 begin 和 step, end 是 可 选 的 ， 如 果 值 是 None， 那 么 生成 
的 是 无 穷 数列 。 

© 这 一 行 把 self.begin 赋值 给 result， 不 过 会 先 强制 转换 成 前 面 的 加 法 算式 得 到 的 类 
型 。 10 

O 为 了 提高 可 读 性 ， 我 们 创建 了 forever 变量 ， 如 果 seLf.end 属性 的 值 是 None， 那 么 
forever 的 值 是 True， 因 此 生成 的 是 无 穷 数 列 。 

O 这 个 循环 要 么 一 直 执 行 下 去 ， 要 么 当 result 大 于 或 等 于 seLf.end 时 结束 。 如 果 循 环 退 

出 了 ， 那 么 这 个 函数 也 随 之 退出 。 

O 生成 当前 的 result 值 。 

O 计算 可 能 存在 的 下 一 个 结果 。 这 个 值 可 能 永远 不 会 产 出 ， 因 为 while 循环 可 能 会 终止 。 


在 示例 14-11 中 的 最 后 一 行 ， 我 没有 直接 使 用 self.step 不 断 地 增加 result， 而 是 选择 使 
用 index 变量 ， 把 self.begin 与 self.step 和 index 的 乘积 相 加 ， 计 算 result 的 各 个 值 ， 
以 此 降低 处 理 浮 点 数 时 累积 效应 致 错 的 风险 。 


示例 14-11 中 定义 的 ArithmeticProgression 类 能 按 预期 那样 使 用 。 这 是 个 简单 的 示例 ， 说 







































































注 10: Python 2 内 置 了 coerce() 函数 ， 不 过 Python 3 没有 内 置 。 开 发 者 觉得 没 必 要 内 置 ， 因 为 算术 运算 符 
会 隐 式 应 用 数值 强制 转换 规则 。 所 以 ， 为 了 让 数列 的 首 项 与 其 他 项 的 类 型 一 样 ， 我 能 想到 最 好 的 方 
式 是 ， 先 做 加 法 运算 ,然后 使 用 计算 结果 的 类 型 强制 转换 生成 的 结果 。 我 在 Python 邮件 列表 中 问 
了 这 个 问题 ，Steven D’Aprano 给 出 了 妙 极 的 答复 (https://mail.python.org/pipermail/python-list/2014- 
December/682651.html) 。 
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明了 如 何 使 用 生成 属国 数 实现 特殊 的 _iter 方法。 然而 ， 如 果 一 个 类 只 是 为 了 构建 生成 
器 而 去 实现 iter 方法 ， 那 还 不 如 使 用 生成 器 函数 。 毕 竞 ， 生 成 器 函数 是 制造 生成 器 的 
Ey 


示例 14-12 中 定义 了 一 个 名 为 aritprog_gen 的 生成 器 函数 ， 作 用 与 ArithmeticProgression 
类 一 样 ， 只 不 过 代码 量 更 少 。 如 果 把 ArithmeticProgression 类 换 成 aritprog_gen 函数 ， 
示例 14-10 中 的 测试 也 都 能 通过 。" 


示例 14-12 aritprog_gen 生成 器 函数 
def aritprog_gen(begin, step, end=None): 
result = type(begin + step)(begin) 
forever = end is None 
index = 0 
while forever or result < end: 
yield result 
index += 1 
result = begin + step * index 


示例 14-12 很 棒 ， 不 过 始终 要 记 住 ,标准 库 中 有 许多 现成 的 生成 器 。 下 一 市 会 使 用 
itertools 模块 实现 ， 那 个 版 本 更 棒 。 


使 用 itertools 模 块 生成 等 差 数 列 
Python 3.4 中 的 itertools 模块 提供 了 19 个 生成 器 函数 ， 结 合 起 来 使 用 能 实现 很 多 有 趣 的 
用 法 。 
例如 ，itertools.count 函数 返回 的 生成 器 能 生成 多 个 数 。 如 果 不 传 和 人 参数，itertools. 
count 国 数 会 生成 从 零 开 始 的 整数 数列 。 不 过 ， 我 们 可 以 提供 可 选 的 start 和 step 值 ， 这 
样 实现 的 作用 与 aritprog_gen 函数 十 分 相似 : 

>>> import itertools 


>>> gen = itertools.count(1, .5) 
>>> next(gen) 


















































>>> next(gen) 
>>> next(gen) 


>>> next(gen) 


然而 ，itertools.count 函数 从 不 停止 ， 因 此 ， 如 果 调 用 List(count())，Python 会 创建 一 
个 特别 大 的 列表 ， 超 出 可 用 内 存 ， 在 调用 失败 之 前 ， 电 脑 会 疯狂 地 运转 。 

不 过 ，itertools.takewhile 函数 则 不 同 ， 它 会 生成 一 个 使 用 另 一 个 生成 器 的 生成 器 ， 在 指 
定 的 条 件 计算 结果 为 False 时 停止 。 因 此 ， 可 以 把 这 两 个 函数 结合 在 一 起 使 用 ， 编 写 下 述 
代码 : 
























































注 11: 本 书 源码 仓库 (https://github.com/fluentpython/example-code) 中 的 14-it-generator/ 目录 里 包含 doctest， 
以 及 一 个 aritprog_runner.py 脚本 ， 用 于 测试 aritprog*.py 脚本 的 所 有 版 本 。 
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>>> gen = itertools.takewhile(lambda n: n < 3, itertools.count(1, .5)) 
>>> List(gen) 
[1, 1.5, 2.0, 2.5] 


示例 14-13 利用 takewhile 和 count 函数 ， 写 出 的 代码 流畅 而 简短 。 


示例 14-13 ”aritprog_v3.py: 与 前 面 的 aritprog_gen 函数 作用 相同 


import itertools 


def aritprog_gen(begin, step, end=None): 
first = type(begin + step) (begin) 
ap_gen = itertools.count(first, step) 
if end is not None: 
ap_gen = itertools.takewhile(lambda n: n < end, ap_gen) 
return ap_gen 


注意 ， 示 例 14-13 中 的 aritprog_gen 不 是 生成 器 国 数 ， 因 为 定义 体 中 没有 yield 关键 字 。 
但 是 它 会 返回 一 个 生成 器 ， 因 此 它 与 其 他 生成 器 函数 一 样 ， 也 是 生成 器 工厂 函数 。 

示例 14-13 想 表达 的 观点 是 ， 实 现 生 成 器 时 要 知道 标准 库 中 有 什么 可 用 ， 否 则 很 可 能 会 重 
新 发 明 轮 子 。 鉴 于 此 ， 下 一 节 会 介绍 一 些 现 成 的 生成 器 国 数 。 


14.9 标准 库 中 的 生成 器 函数 


标准 库 提 供 了 很 多 生成 器 ， 有 用 于 和 逐 行 迭 代 纯 文本 文件 的 对 象 ， 还 有 出 色 的 os.watk 函数 
(https://docs.python.org/3/library/os.html#os.walk)。 这 个 函数 在 遍历 目录 树 的 过 程 中 产 出 文 
件 名 ， 因 此 递归 搜索 文件 系统 像 for 循环 那样 简单 。 


os.walk 生成 器 函数 的 作用 令 人 赞叹 ， 不 过 本 节 专 注 于 通用 的 函数 : 参数 为 任意 的 可 迭代 
对 象 ， 返 回 值 是 生成 器 ， 用 于 生成 选中 的 、 计 算出 的 和 重新 排列 的 元 素 。 在 下 述 几 个 表格 
中 ， 我 会 概述 其 中 的 24 个 ， 有 些 是 内 置 的 ， 有 些 在 itertools 和 functools 模块 中 。 为 了 
方便 ， 我 按照 函数 的 高 阶 功能 分 组 ， 而 不 管 函 数 是 在 哪里 定义 的 。 
































你 可 能 知道 本 节 所 述 的 全 部 函数 ， 但 是 某 些 国 数 没有 得 到 充分 利用 ， 因 此 快 
束 概 览 一 遍 能 让 你 知道 有 什么 函 数 可 用 。 

















第 一 组 是 用 于 过 滤 的 生成 颖 国 数 : 从 输入 的 可 返 代 对 象 中 产 出 元 素 的 子 集 ， 而 且 不 修改 元 
素 本 身 。 本 章 前 面 的 14.8.1 节 用 过 itertools.takewhile 国 数 。 与 takewhile 国 数 一 样 ， 表 
14-1 中 的 大 多 数 函 数 都 接受 一 个 断言 参数 (predicate)。 这 个 参数 是 个 布尔 函数 ， 有 一 个 
参数 ， 会 应 用 到 输入 中 的 每 个 元 素 上 ， Fe RINE ESI eA 
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表 14-1: 用 于 过 滤 的 生成 器 函数 


模块 函数 


说 明 





itertooLs compress(it, selector_it) 并 行 处 理 两 个 可 迭代 的 对 象 ， 如 果 selector_it 中 的 元 素 是 


itertools dropwhile(predicate, it) Ab Fy 





真 值 ， 产 出 it 中 对 应 的 元 素 
Eit， 跳 过 predicate 的 计算 结果 为 真 值 的 元 素 ， 然 后 
出 剩 下 的 各 个 元 素 (不 再 进一步 检查 ) 





























(内 置 ) filter(predicate, it) 把 it 中 的 各 个 元 素 传 给 predicate， 如 果 predicate(item) 








返回 真 值 ， 那 么 产 出 对 应 的 元 素 ， 如 果 predicate 是 None, 
那么 只 产 出 真 值 元 素 











itertooLs filterfalse(predicate, it) 与 filter 函数 的 作用 类 似 ， 不 过 predicate 的 逻辑 是 相反 














的 : predicate 返回 假 值 时 产 出 对 应 的 元 素 











itertooLs islice(it, stop) 或 islice(it， 产 出 it 的 切片 ,作用 类 似 于 s[:stop] 或 s[start:stop:step]， 























start, stop, step=1) 不 过 it 可 以 是 任何 可 迭代 的 对 象 ， 而 且 这 个 函数 实现 的 是 情 
性 操作 
itertools takewhile(predicate, it) predicate 返回 真 值 时 产 出 对 应 的 元 素 ， 然 后 立即 停止 ， 不 
再 继续 检查 


示例 14-14 在 控制 台中 演示 表 14-1 中 各 个 函数 的 用 法 。 
示例 14-14 ”演示 用 于 过 滤 的 生成 器 函数 


>>> def vowel(c): 


return c.lower() in ‘aeiou' 


>>> List(filter(vowel, 
EUAS; aly ta] 
>>> import itertools 


'Aardvark')) 


>>> list(itertools.filterfalse(vowel, 'Aardvark')) 
LES 'd', Eran ENS 'k'] 
>>> list(itertools.dropwhile(vowel, 'Aardvark')) 


pi 'd', yi a 


1 Ms Wel 'k'] 


>>> list(itertools.takewhile(vowel, 'Aardvark')) 


['a', 'a'] 


>>> list(itertools.compress('Aardvark', (1,0,1,1,0,1))) 


LAS npe KA tat] 


>>> list(itertools.islice('Aardvark', 4)) 


['A', Vat ee 'd'] 


>>> list(itertools.islice('Aardvark', 4, 7)) 


ty, ee 'r'] 


>>> List(itertools.islice('Aardvark', 1, 7, 2)) 


[vars 'd', tat] 


下 一 组 是 用 于 映射 的 生成 器 


函数 : 在 输入 的 单个 可 迭代 对 象 (map 和 starmap 函数 处 理 多 























个 可 迭代 的 对 象 ) 中 的 各 个 元 素 上 做 计算 ， 然 后 返回 结果 。“ 表 14-2 中 的 生成 器 函数 会 从 
输入 的 可 迭代 对 象 中 的 各 个 元 素 中 产 出 一 个 元 素 。 如 有 果 输 入 来 自 多 个 可 迭代 的 对 象 ， 第 一 
个 可 迭代 的 对 象 到 头 后 就 停止 输出 。 











注 12: 这 里 所 说 的 “映射 ”与 字 } 














没有 关系 ， 而 与 内 置 的 map 函数 有 关 。 
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表 14-2: 用 于 映射 的 生成 器 函数 


模块 


函数 说 明 





itertools accumulate(it, [func]) 产 出 累积 的 总 和 ， 如 果 提 供 了 func， 那 么 把 前 两 个 元 素 传 


给 它 ， 然 后 把 计算 结果 和 下 一 个 元 素 传 给 它 ， 以 此 类 
最 后 产 出 结果 














推 ， 


(内 置 ) enumerate(iterable, start=0) 产 出 由 两 个 元 素 组 成 的 元 组 ， 结 构 是 (index，item)， 其 中 


index 从 start 开始 计数 ，itenm 则 从 iterable 中 获取 


(内 置 ) map(func, it1, [it2, ..., itN]) 把 it 中 的 各 个 元 素 传 给 func， 产 出 结果 ， 如 果 传 入 个 可 
RHR, ABA func 必须 能 接受 NN 个 参数 ， 而 且 要 并 行 





处 理 各 个 可 迭代 的 对 象 














itertools starmap(func, it) 把 让 中 的 各 个 元 素 传 给 func， 产 出 结果 ; HA HY Aa OMT 
象 应 该 产 出 可 迭代 的 元 素 iit， 然 后 以 func(*iit) 这 种 形 


示例 





式 调 用 func 





14-15 演示 itertools.accumulate 国 数 的 几 个 用 法 。 


示例 14-15 “演示 itertools.accumulate 生成 器 国 数 


>>> sample = [5, 4, 2, 8, 7, 6, 3, 0, 9, 1] 

>>> import itertools 

>>> List(itertools.accumulate(sample)) # © 

[5, 9, 11, 19, 26, 32, 35, 35, 44, 45] 

>>> List(itertools.accumulate(sample, min)) #@ 

[5, 4, 2, 2, 2, 2, 2, 0, 0, 0] 

>>> List(itertools.accumulate(sample, max)) # © 

[5, 5, 5, 8, 8, 8, 8, 8, 9, 9] 

>>> import operator 

>>> List(itertools.accumulate(sample, operator.mul)) # @ 
[5, 20, 40, 320, 2240, 13440, 40320, 0, 0, 0] 

>>> List(itertools.accumulate(range(1, 11), operator.mul)) 
[1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] # O 


@ 计算 总 和 。 


© 计算 最 小 值 。 
© 计算 最 大 值 。 

















I 





@ 计算 乘积 。 
© 从 1! 到 10!， 计 算 各 个 数 的 阶乘 。 


表 14-2 中 剩余 函数 的 演示 如 示例 14-16 所 示 。 


示例 14-16 ”演示 用 于 映射 的 生成 器 函数 


>>> list(enumerate('albatroz', 1)) #@ 

[(1, 'a'), (2, 'l'), (3, 'b'), (4, 'a'), (5, 't'), (6, 'r'), (7, 'o'), (8, 'z')] 
>>> import operator 

>>> list(map(operator.mul, range(11), range(11))) #@ 

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100] 

>>> List(map(operator.mul, range(11), [2, 4, 8])) #6 

[0, 4, 16] 

>>> List(map(lambda a, b: (a, b), range(11), [2, 4, 8])) #@ 

[(0, 2), (1, 4), (2, 8)] 
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>>> import itertools 


>>> Llist(itertools.starmap(operator.mul, enumerate(‘albatroz', 1))) #@ 


'a', 'Ll', 'bbb', ‘aaaa', 


'ttttt', 'rrrrrr', 


>>> sample = [5, 4, 2, 8, 7, 6, 3, 0, 9, 1] 
>>> List(itertools.starmap(lambda a, b: b/a, 
5 enumerate(itertools.accumulate(sample), 1))) # O 
[s. 0, 4.5, 3.6666666666666665, 4.75, 5.2, 5.333333333333333, 
5.0, 4.375, 4.888888888888889, 4.5] 


@ 从 1 开始 ， 为 单词 中 的 字母 编号 。 
O 从 9 到 10， 计 算 各 个 整数 的 平方 。 








O 计算 两 个 可 迭代 对 象 中 对 应 位 置 上 上 


就 停止 。 
O 作用 等 同 于 内 置 的 zip 函数 。 








"o000000', |'zzzzzzzz' | 


的 两 个 元 素 之 积 ， 元 素 最 少 的 那个 可 迭代 对 象 到 头 后 





O 从 1 开始 ， 根 据 字 母 所 在 的 位 置 ， 把 字母 重复 相 


O 计算 平均 值 。 


接 下 来 这 一 组 是 用 于 合并 的 生成 器 函数 ， 这 些 国 数 都 从 输入 的 多 个 可 和 迭代 对 象 中 产 出 元 


素 。chain 和 chain. from_iterable 按 顺 序 (一 
product, zip 和 zip_longest 并 行 





表 14-3: 合并 多 个 可 迭代 对 象 的 生成 器 函数 


个 接 一 个 ) SORTA ARR A, 
处 理 输入 的 各 个 可 迭代 对 象 。 如 表 14-3 所 示 。 

















模块 函数 说 明 
itertools chain(it1, ..., itN) 先 产 出 iti 中 的 所 有 元 素 ， 然 后 产 出 it2 中 的 所 有 元 素 ， 以 此 类 


itertools chain.from iterable(it) 


itertools product(it1, ..., 
itN, repeat=1) 


(内 置 ) zip(it1, ..., itN) 


itertools zip _longest(it1, ..., 
itN, fillvalue=None) 





推 , 无 颖 连接 在 一 起 





产 出 放生 成 的 各 个 可 和 迭代 对 象 中 的 元 素 ， 一 个 接 一 个 ， 无 颖 连接 


个 元 素 组 成 的 元 组 ， 





并 行 从 输入 的 各 个 可 








成 的 元 组 ， 等 到 最 长 
fillvalue 填充 








在 一 起 ，it 应 该 产 出 可 迭代 的 元 素 ， 例 Vid OHH RA 

计算 笛 卡 儿 积 : 从 输入 的 各 个 可 迭代 对 象 中 获取 元 素 ， 合 并 成 由 入 
HREN for 循环 效果 一 样 ，repeat 指明 重复 
处 理 多 少 次 输入 的 可 迭代 对 象 


























迭代 对 象 中 获取 元 素 ， 产 出 由 个 元 素 组 成 














的 元 组 ， 只 要 有 一 个 可 迭代 的 对 象 到 头 了 ， 就 默默 地 停止 
并 行 从 输入 的 各 个 可 迭代 对 象 中 获取 元 素 ， 产 出 由 N 个 元 素 组 














的 可 迭代 对 象 到 头 后 才 停止 ， 空 缺 的 值 使 用 


示例 14-17 展示 itertools.chain 和 zip 生成 器 国 数 及 其 同胞 的 用 法 。 再 次 提醒 ，zip 函数 
自 zip fastener 或 zipper (拉链 ， 与 ZIP 压缩 没有 关系 )。 “出色 的 zip 函数 ”附注 
栏 介绍 过 zip 和 itertools.zip_longest 国 数 。 





示例 14-17 演示 用 于 合并 的 生成 器 函数 


>>> list(itertools.chain('ABC', range(2))) #@ 


['A', Bee ‘C's 0, 1 





>>> list(itertools.chain(enumerate('ABC'))) #@ 
[(0, A= Jo (1, "B'), (2, 'c')] 
>>> list(itertools.chain.from_iterable(enumerate('ABC'))) # © 


[0, 'A', 1, 'B', 2, 'C'] 





>>> List(zip('ABC', range(5))) #@ 

[('A', 0), ('B', 1), ('C', 2)] 

>>> List(zip('ABC', range(5), [10, 20, 30, 40])) # O 

[C'A', 0, 10), ('B', 1, 20), ('C', 2, 30)] 

>>> List(itertools.zip_longest('ABC', range(5))) # O 

[C'A', 0), ('B', 1), ('C', 2), (None, 3), (None, 4)] 

>>> List(itertools.zip_longest('ABC', range(5), fillvalue='?')) #@ 
[CA', 0), ('B', 1), ('C', 2), ('?', 3), ('?', 4)] 


© 调用 chain pa Bch ie He APT ES AE ORR 

O 如 果 只 传人 一 个 可 和 迭代 的 对 象 ， 那 么 chain 函数 没什么 用 。 

© 但 是 chain. from_iterable 国 数 从 可 迁 代 的 对 象 中 获取 每 个 元 素 ， 然 后 按 顺 序 把 元 素 连 
接 起 来 ， 前 提 是 各 个 元 素 本 身 也 是 可 返 代 的 对 象 。 

O zip 常用 于 把 两 个 可 迭代 的 对 象 合并 成 一 系列 由 两 个 元 素 组 成 的 元 组 。 

O zip 可 以 并 行 处 理 任意 数量 个 可 迭代 的 对 象 ， 不 过 只 要 有 一 个 可 帮 代 的 对 象 到 头 了 ， 生 
成 器 就 停止 。 

Q itertools.zip_longest 函数 的 作用 与 zip 类似， 不 过 输入 的 所 有 可 和 迭代 对 象 都 会 处 到 
到 头 ， 如 有 果 需 要 会 填充 None。 

@ fillvalue 关键 字 参 数 用 于 指定 填充 的 值 。 


itertools.product 生成 器 是 计算 笛 卡 儿 积 的 惰性 方式 ， 在 2.2.3 节 ， 我 们 在 多 个 for FA 
中 使 用 列表 推导 计算 过 笛 卡 儿 积 。 此 外 ， 也 可 以 使 用 包含 多 个 for 子 句 的 生成 器 表达 式 ， 
以 惰性 方式 计算 第 卡 儿 积 。 示 例 14-18 演示 itertools.product 函数 的 用 法 。 


示例 14-18 ”演示 itertools.product AE Kz PAL 
>>> list(itertools.product('ABC', range(2))) #@ 
[CA', 0), ('A', 1), ('B', ©), ('B', 1), ('C', 0), ('C', 1)] 
>>> suits = 'spades hearts diamonds clubs'.split() 
>>> List(itertools.product('AK', suits)) #@ 
[C'A', 'spades'), ('A', 'hearts'), ('A', 'diamonds'), ('A', 'clubs'), 
('K', 'spades'), ('K', 'hearts'), ('K', 'diamonds'), ('K', 'clubs')] 
>>> Llist(itertools.product('ABC')) # © 
[C'A',), ('B',), ('C',)] 
>>> list(itertools.product('ABC', repeat=2)) #@ 
[C'A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'B'), 
(*B', 'C'), ('C', A C'C', 'B'), C'C’, ED] 
>>> List(itertools.product(range(2), repeat=3)) 
[(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1), (1, 0, 0), 
(1, ©, 1), (1, 1, 0), (1, 1, 1)] 
>>> rows = itertools.product('AB', range(2), repeat=2) 
>>> for row in rows: print(row) 









































iaz 











('A', ©, 'A', 0) 
CA Og TAL 1) 
('A', ©, 'B', 0) 
('A', ©, 'B', 1) 
('A', 1, 'A', 0) 
('A', 1, 'A', 1) 
('A', 1, 'B', 0) 
CA g Dg "BY 51) 
('B', ©, 'A', 0) 





可 和 迭代 的 对 象 、 迭代 器 和 生成 器 | 353 


('B', 0, 'A', 1) 
('B', 0, 'B', 0) 
('B', 0, 'B', 1) 
('B', 1, 'A', 0) 
('B', 1, 'A', 1) 
('B', 1, 'B', 0) 
CBN E> "Ba 1) 





O 三 个 字符 的 字符 串 与 两 个 整数 的 值 域 得 到 的 第 卡 儿 积 是 六 个 元 组 (因为 3 * 2 等 于 6)。 
O 两 张 牌 ('AK') 与 四 种 花色 得 到 的 笛 卡 儿 积 是 八 个 元 组 。 
O 如 果 传 人 一 个 可 迭代 的 对 象 ，product 函数 产 出 的 是 一 系列 只 有 一 个 元 素 的 元 组 ， 不 是 

















特别 有 用 。 

















© repeat=N 关键 字 参 数 告诉 product 函数 重复 N 次 处 理 输入 的 各 个 可 迭代 对 象 。 
有 些 生 成 器 函数 会 从 一 个 元 素 中 产 出 多 个 值 ， 扩 展 输 入 的 可 迭代 对 象 ， 如 表 14-4 所 示 。 









































表 14-4: 把 输入 的 各 个 元 素 扩展 成 多 个 输出 元 素 的 生成 器 函数 

模块 函数 说 明 

itertools combinations(it, 把 让 产 出 的 out_len 个 元 素 组 合 在 一 起 ， 然 后 产 出 
out_len) 

itertools combinations_with_re 把 it 产 出 的 out_len 个 元 素 组 合 在 一 起 ， 然 后 产 出 ， 包 含 相 同 元 素 
placement(it, out_len) 的 组 合 

itertooLs count(start=0, step=1) 从 start 开始 不 断 产 出 数字 ， 按 step 指定 的 步 幅 增加 

itertools cycle(it) 从 让 中 产 出 各 个 元 素 ， 存 储 各 个 元 素 的 副本 ， 然 后 按 顺 序 重复 不 断 

地 产 出 各 个 元 素 

itertools permutations(it, 把 out_len 个 it 产 出 的 元 素 排 列 在 一 起 ， 然 后 产 出 这 些 排列 ，out_ 
out_len=None) len 的 默认 值 等 于 len(list(it)) 

itertools 











repeat(item, [times]) 重复 不 断 地 产 出 指定 的 元 素 ， 除 非 提 供 times， 指 定 次 数 


itertools 模块 中 的 count 和 repeat 函数 返回 的 生成 器 “无 中 生 有 ”: 这 两 个 函数 都 不 接 
受 可 迭代 的 对 象 作 为 输入 。14.8.1 节 见 过 itertools.count 函数 。cycle 生成 器 会 备份 输入 
的 可 迭代 对 象 ， 然 后 重复 产 出 对 象 中 的 元 素 。 示 例 14-19 演示 count, repeat 和 cycle 的 


用 法 。 





示例 14-19 ”演示 count, repeat 和 cycle 的 用 法 


>>> 
>>> 
0 
>>> 
G, 
>>> 
[1, 
>>> 
>>> 
"A! 


ct = itertools.count() # © 
next(ct) #@ 


next(ct), next(ct), next(ct) # © 

2, 3) 

list(itertools.islice(itertools.count(1, .3), 3)) #@ 
1.3, 1.6] 

cy = itertools.cycle('ABC') #@ 

next(cy) 


>>> list(itertools.islice(cy, 7)) # O 


['B" 


>>> 


; uE! NAY 5 "Bs "es SA 'B'] 
rp = itertools.repeat(7) # @ 





>>> next(rp), next(rp) 

(7, 7) 

>>> list(itertools.repeat(8, 4)) # O 
[8, 8, 8, 8] 


>>> List(map(operator.mul, range(11), itertools.repeat(5))) # © 


[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50] 


O 使 用 count 函数 构建 ct 生成 器 。 
@ 获取 ct 中 的 第 一 个 元 素 。 








© 不 能 使 用 ct 构建 列表 ， 因 为 ct 是 无 穷 的 ， 所 以 我 获取 接 下 来 的 3 个 元 素 。 

O 如 果 使 用 istLice 或 takewhile 函数 做 了 限制 ， 可 以 从 count Ae BX ae HIE FI Ze 
© 使 用 'ABC' 构建 一 个 cycle 生成 器 ， 然 后 获取 第 一 个 元 素 一 'A' 

O 只 有 受到 islice 函数 的 限制 ,才能 构建 列表 ， 这 里 获取 接 下 来 的 7 个 元 素 。 





O 构建 一 个 repeat 生成 器 ， 始 终 产 出 数字 7。 
O 传人 times 参数 可 以 限制 repeat 生成 器 生成 的 元 素数 量 : 这 


里 会 生成 4 次 数字 8。 


© repeat 函数 的 常见 用 途 : A map 函数 提供 固定 参数 ， 这 里 提供 的 是 乘 数 5。 











TE itertools 模块 的 文档 中 (https://docs.python.org/3/library/itertools.html)，combinations、 


combinations_with_replacement fH permutations 生成 器 函数 ， 连 同 product 国 数 ， 称 为 组 合 
学 生成 器 (combinatoric generator), itertools.product 函数 和 其 余 的 组 合 学 函数 有 紧密 的 





联系 ， 如 示例 14-20 所 示 。 


示例 14-20 组合 学 生成 器 函数 会 从 输入 的 各 个 元 素 中 产 出 多 个 值 


>>> list(itertools.combinations('ABC', 2)) #@ 
[C'A', 'B'), C'AT, 'C'), ('B', SEY] 
>>> List(itertools.combinations_with_replacement('ABC', 


2 
[('A' ， A) ('A', 'B'), C'A', a had ('B', "B'), ('B', “GI 


>>> list(itertools.permutations('ABC', 2)) # © 


[CA', 'B'), CA’, 'C'), ('B', 'A'), CB", 'C'), C'C', 'A'), ('C', 'B')] 


>>> list(itertools.product('ABC', repeat=2)) # @ 


[C'A', A Ja ('A', 'B'), ('A', “Cs ('B', 'A'), ('B', 'B'), ('B', 'C'), 


CC', 'A'), CC’, 'B'), C'C', 'C')] 





@ 'nec' 中 每 两 个 元 素 (Len()==2) HERAA: EERI 
(可 以 视 作 集合 )。 


日 中 ， 元 素 的 顺序 无 关 紧 要 


@ ‘asc! 中 每 两 个 元 素 (ten()==2) 的 各 种 组 合 ， 包 括 相 同 元 素 的 组 合 。 





© 'ABC' 中 每 两 个 元 素 (len()==2) 的 各 种 排列 ， 在 生成 的 元 组 
Mig 
© 'ABC' Fil 'ABC' (repeat=2 的 效果 ) 的 笛 卡 儿 积 。 





日 中 ， 元 素 的 顺序 有 重要 意 


本 节 要 讲 的 最 后 一 组 生成 器 函数 用 于 产 出 输入 的 可 迭代 对 象 中 的 全 部 元 素 ， 不 过 会 以 
某 种 方式 重新 排列 。 其 中 有 两 个 国 数 会 返回 多 个 生成 器 ， 分 别 是 itertools.groupby 和 
itertools.tee。 这 一 组 里 的 另 一 个 生成 器 函数 ， 内 置 的 reversed AL, AT ATA A 
数 中 唯一 一 个 不 接受 可 迭代 的 对 象 ， 而 只 接受 序列 为 参数 的 函数 。 这 在 情理 之 中 ， 因 为 
reversed 国 数 从 后 向 前 产 出 元 素 ， 而 只 有 序列 的 长 度 已 知 时 才能 工作 。 不 过 ， 这 个 函数 会 
按 需 产 出 各 个 元 素 ， 因 此 无 需 创 建 反 转 的 副本 。 我 把 itertools.product 国 数 划 分 为 用 于 
合并 的 生成 器 ， 列 在 表 14-3 中 ， 因 为 那 一 组 函数 都 处 理 多 个 可 迭代 的 对 象 ， 而 表 14-5 中 












































可 迭代 的 对 象 
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的 生成 器 最 多 只 能 接受 一 个 可 迭代 的 对 象 。 

表 14-5: 用 于 重新 排列 元 素 的 生成 器 函数 

模块 函数 说 明 

itertools groupby(it, 产 出 由 两 个 元 素 组 成 的 元 素 ， 形 式 为 (key，group)， 其 中 key 是 分 组 标准 ， 
key=None) group 是 生成 器 ， 用 于 产 出 分 组 里 的 元 素 

(内 置 ) reversed(seq) 从 后 向 前 ， 倒 序 产 出 seq 中 的 元 素 ，seq 必须 是 序列 ， 或 者 是 实现 了 

__reversed “特殊 方法 的 对 象 

itertools tee(it, n=2) 产 出 一 个 由 守 个 生成 器 组 成 的 元 组 ， 每 个 生成 器 用 于 单独 产 出 输入 的 可 迭代 

对 象 中 的 元 素 

























































































示例 14-21 演示 itertools.groupby 国 数 和 内 置 的 reversed 函数 的 用 法 。 注 意 ，itertools. 
groupby 假定 输入 的 可 友 代 对 象 要 使 用 分 组 标准 排序 ， 即 使 不 排序 ， 至 少 也 要 使 用 指定 的 
标准 分 组 各 个 元 素 。 


示例 14-21 itertools.groupby 函数 的 用 法 
>>> list(itertools.groupby('LLLLAAGGG')) # © 
[('L', <itertools._grouper object at 0x102227cc0>), 
('A', <itertools._grouper object at 0x102227b38>), 
('G', <itertools._grouper object at 0x102227b70>)] 
>>> for char, group in itertools.groupby('LLLLAAAGG'): # @ 


print(char, '->', list(group)) 


A E a ores me a 
A -> ['A', 'A',] 
G -> ['G', 'G', 'G'] 
>>> animals = ['duck', 'eagle', 'rat', 'giraffe', 'bear', 
'bat', 'dolphin', 'shark', 'lion'] 
>>> animals.sort(key= enS +O 
>>> animals 
['rat', 'bat', 'duck', 'bear', 'lion', 'eagle', 'shark', 
'giraffe', 'dolphin'] 
>>> for length, group in itertools.groupby(animals, len): # @ 


1 1 


print(length, '->', list(group)) 


3 -> ['rat', 'bat'] 

4 -> ['duck', 'bear', 'lion'] 

5 -> ['eagle', 'shark'] 

7 -> ['giraffe', 'dolphin'] 

>>> for length, group in itertools.groupby(reversed(animals), len): # @ 


1 


print(length, '->', list(group)) 


7 -> ['dolphin', 'giraffe'] 

5 -> ['shark', 'eagle'] 

4 -> ['lion', 'bear', 'duck'] 
3 -> ['bat', 'rat'] 

>>> 


Q groupby 国 数 产 出 (key, group_generator) 这 种 形式 的 元 组 。 


© 处 理 groupby 函数 返回 的 生成 器 要 般 套 迭代: 这 里 在 外 层 使 用 for 循环 ， 内 层 使 用 列表 
推导 。 





© 为 了 使 用 
O 再 次 遍历 
O 这 里 使 用 

















groupby 函数 ， 要 排序 输入 ， 这 里 按照 单词 的 长 度 排序 。 
key 和 group 值 对 ， 把 key 显示 出 来 ， 并 把 group 扩展 成 列表 。 
reverse 生成 器 从 右 向 左 迭 代 animals, 








这 一 组 里 的 最 后 一 个 生成 器 函数 是 iterator.tee， 这 个 函数 只 有 一 个 作用 : 从 输入 的 一 个 
可 迭代 对 象 中 产 出 多 个 生成 器 ， 每 个 生成 器 都 可 以 产 出 输入 的 各 个 元 素 。 产 出 的 生成 器 可 





以 单独 使 用 ， 


示例 14-22 








如 示例 14-22 所 示 。 
itertools.tee 函数 产 出 多 个 生成 号 ， 每 个 生成 器 都 可 以 产 出 输入 的 各 个 元 素 


>>> List(itertools.tee('ABC')) 
[<itertools._tee object at 0x10222abc8>, <itertools._tee object at 0x10222ac08>] 


>>> gi, 


g2 = itertools.tee('ABC') 


>>> next(g1) 


"A! 


>>> next(g2) 


>>> next(g2) 


>>> list(g1) 
EB" 'C'7 
>>> list(g2) 


['c'] 


>>> List(zip(*itertools.tee('ABC'))) 


[C'A', 
注意 ， 这 一 


AD ECR Ces. E] 


市 的 示例 多 次 把 不 同 的 生成 器 函数 组 合 在 一 起 使 用 。 这 是 这 些 函 数 的 优秀 特 


PE: 这 些 函 数 的 参数 都 是 生成 器 ， 而 返回 的 结果 也 是 生成 器 ， 因 此 能 以 很 多 不 同 的 方式 结 


合 在 一 起 使 有 








Ho 





既然 讲 到 了 这 个 话题 ， 那 就 介绍 一 下 Python 3.3 中 新 出 现 的 yield from 语句 。 这 个 语句 的 





作用 就 是 把 不 同 的 生成 器 结合 在 一 起 使 用 。 


14.10 
如 果 生 成 器 




















Python 3.3 中 新 出 现 的 句法 : yield from 





函数 需要 产 出 另 一 个 生成 器 生成 的 值 ， 传 统 的 解决 方法 是 使 用 租 套 的 for 循环 。 


例如 ， 下 面 是 我 们 自己 实现 的 chain 生成 器 :" 














>>> 


>>> 
>>> 
>>> 


['A', 


def chain(*iterables): 
for it in iterables: 
for i in it: 
yield i 


s = 'ABC' 

t = tuple(range(3)) 
list(chain(s, t)) 
'B', 'C', 0, 1, 2] 











TE 13: 标准 库 中 的 itertools.chain 国 数 是 使 用 C 语言 编写 的 。 
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chain 生成 器 国 数 把 操作 依次 交 给 接收 到 的 各 个 可 迭代 对 象 处 理 。 为 此 ， “PEP 
380 — Syntax for Delegating to a Subgenerator” (https://www.python.org/dev/peps/pep-0380/) 
引入 了 一 个 新 名 法， 如 下 述 控制 台中 的 代码 清单 所 示 : 

>>> def chain(*iterables): 


for i in iterables: 
yield from i 





ee list(chain(s, t)) 

['a', 'B', 'C', O, 1, 2] 
可 以 看 出 ，yield from i ZARE TARRY for 循环 。 在 这 个 示例 中 使 用 yield from 是 对 
的 ， 而 且 代 码 读 起 来 更 顺畅 ， 不 过 感觉 更 像 是 语法 糖 。 除 了 代替 循环 之 外 ，yield from 还 
会 创建 通道 ， 把 内 层 生 成 器 直接 与 外 层 生 成 器 的 客户 端 联 系 起 来 。 把 生成 器 当成 协 程 使 用 
时 ， 这 个 通道 特别 重要 ， 不 仅 能 为 客户 端 代码 生成 值 ， 还 能 使 用 客户 端 代码 提供 的 值 。 第 
16 章 会 深入 讲解 协 程 ， 其 中 有 几 页 会 说 明 为 什么 yield from 不 只 是 语法 糖 而 已 。 
—iBe yield from 之 后 ， 我 们 回 过 头 继续 复习 标准 库 中 善于 处 理 可 迭代 对 象 的 国 数 。 


14.11 可 迭代 的 归 约 函数 


K 14-6 中 的 国 数 都 接受 一 个 可 和 迭代 的 对 象 ， 然 后 返回 单个 结果 。 这 些 国 数 叫 “ 归 
2)” pe, 合拢 ”函数 或 “累加 ” 国 数 。 其 实 ， 这 里 列 出 的 每 个 内 置 函 数 都 可 以 使 用 
functools. reduce 国 数 实现 ， 内 置 是 因为 使 用 它们 便于 解决 常见 的 问题 。 此 外 ， 对 atl 和 
any 国 数 来 说 ， 有 一 项 重要 的 优化 措施 是 reduce 函数 做 不 到 的 这 两 个 函数 会 短路 〈 即 一 
且 确 定 了 结果 就 立即 停止 使 用 迭代 器 ) 。 参 见 示例 14-23 中 any 函数 的 最 后 一 个 测试 。 


表 14-6: 读 取 迭代 器 ， 返 回 单个 值 的 内 置 函 数 
















































































































































































模块 函数 说 明 
(内 置 ) all(it) 让 中 的 所 有 元 素 都 为 真 值 时 返回 True, ADRIE False, all([]) 返 
可 True 
(内 置 ) any(it) 只 要 it 中 有 元 素 为 真 值 就 返回 True, AURE False; any([]) 返回 
False 
(内 置 )  max(it, [key=,] 返回 it 中 值 最 大 的 元 素 ， key 是 排序 函数 ， 与 sorted 函数 中 的 一 样 ， 
[default=]) 如 果 可 迭代 的 对 象 为 空 ， 返 回 default 
(内 置 ) min(it，[key=,] 返回 it 中 值 最 小 的 元 素 ; “key 是 排序 函数 ， 与 sorted 函数 中 的 一 样 ， 
[default=]) 如 果 可 迭代 的 对 象 为 空 ， 返 回 default 
functools reduce(func, it, 把 前 两 个 元 素 传 给 func， 然 后 把 计算 结果 和 第 三 个 元 素 传 给 func， 以 
[initial]) 此 类 推 ， 返回 最 后 的 结果 ， 如 果 提 供 了 initial， 把 它 当 作 第 一 个 元 
素 传 人 




















(内 置 ) sum(it, start=0) it 中 所 有 元 素 的 总 和 ， 如 果 提 供 可 选 的 start， 会 把 它 加 上 (计算 浮 
点 数 的 加 法 时 ， 可 以 使 用 math. fsum 函数 提高 精度 ) 


* 也 可 以 像 这 样 调用 : max(arg1，arg2，...，[key=?])， 此 时 返回 参数 中 的 最 大 值 。 
# 也 可 以 像 这 样 调用 : min(arg1，arg2，...，[key=?])， 此 时 返回 参数 中 的 最 小 值 。 


all 和 any 函数 的 操作 演示 如 示例 14-23 所 示 。 
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示例 14-23 ”把 几 个 序列 传 给 all 和 any 函数 后 得 到 的 结果 
>>> all([1, 2, 3]) 


True 

>>> all([1, 0, 3]) 
False 

>>> all([]) 

True 

>>> any([1, 2, 3]) 
True 

>>> any([1, 0, 3]) 
True 

>>> any([0, 0.0]) 
False 

>>> any([]) 

False 

>>> g = (n for n in [0, 0.0, 7, 8]) 
>>> any(g) 

True 


>>> next(g) 


10.6 节 更 为 深入 地 解释 过 functools. reduce 国 数 。 


还 有 一 个 内 置 的 函数 接受 一 个 可 迭代 的 对 象 ， 返 回 不 同 的 值 一 一 sorted。reversed 是 生成 
器 函数 ， 与 此 不 同 ，sorted 会 构建 并 返回 真正 的 列表 。 毕 竞 ， 要 读 取 输 入 的 可 迭代 对 象 中 
的 每 一 个 元 素 才 能 排序 ， 而 且 排 序 的 对 象 是 列表 ， 因 此 sorted 操作 完成 后 返回 排序 后 的 列 
表 。 我 在 这 里 提 到 sorted， 是 因为 它 可 以 处 理 任 意 的 可 迭代 对 象 。 

当然 ，sorted 和 这 些 归 约 函数 只 能 处 理 最 终 会 停止 的 可 迭代 对 象 。 否 则 ， 这 些 函 数 会 一 直 
收集 元 素 ， 永 远 无 法 返回 结果 。 


下 面 ， 我 们 回 过 头 来 分 析 内 置 的 iter() 函数 ， 它 还 有 一 个 鲜 为 人 知 的 特性 没有 介绍 


14.12 ”深入 分 析 iter 函 数 


如 前 所 述 ， 在 Python 中 迭代 对 象 x 时 会 调用 iter(x)。 

可 是 ，iter 函数 还 有 一 个 鲜 为 人 知 的 用 法 : 传 入 两 个 参数 ， 使 用 常规 的 函数 或 任何 可 调 
用 的 对 象 创建 迭代 器 。 这 样 使 用 时 ， 第 一 个 参数 必须 是 可 调用 的 对 象 ， 用 于 不 断 调 用 ( 没 
AER), 产 出 各 个 值 ， 第 二 个 值 是 哨 符 ， 这 是 个 标记 值 ， 当 可 调用 的 对 象 返 回 这 个 值 时 ， 
触发 迭代 器 抛 出 StopIteration 异常 ， 而 不 产 出 哨 符 。 


下 述 示例 展示 如 何 使 用 iter KAART, ARA 1 点 为 止 : * 


>>> def d6(): 
return randint(1, 6) 

























































































>>> d6_iter = iter(d6, 1) 
>>> d6_iter 








注 14， 需 要 在 这 个 示例 的 最 前 面 添加 一 句 ，fron random import randint, -编者 注 
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<callable_iterator object at 0x00000000029BE6A0> 
>>> for roll in d6_iter: 
print(roll) 


WanAW he >œ. 


注意 ， 这 里 的 iter 函数 返回 一 个 callable_iterator 对 象 。 示 例 中 的 for 循环 可 能 运行 特 
别 长 的 时 间 ， 不 过 肯定 不 会 打印 1， 因 为 1 是 哨 符 。 与 常规 的 迭代 器 一 样 ， 这 个 示例 中 的 
d6_iter 对 象 一 旦 耗 尽 就 没 用 了 。 如 果 想 重新 开始 ， 必 须 再 次 调用 iter(.…)， 重 新 构建 揭 
代 器 。 
内 置 函 数 iter 的 文档 (https://docs.python.org/3/library/functions.html#iter) 中 有 个 实用 的 例 
子 。 这 段 代 码 逐 行 读 取 文 件 ， 直 到 遇 到 空 行 或 者 到 达 文 件 末尾 为 止 : 

with open('mydata.txt') as fp: 


for line in iter(fp.readline, '\n'): 
process_line(line) 


结束 本 章 之 前 ， 我 要 举 个 实用 的 例子 ， 说 明 如 何 使 用 生成 器 高 效 处 理 大 量 数据 。 


14.13 ”案例 分 析 : 在 数据 库 转 换 工 具 中 使 用 生成 器 


几 年 前 ， 我 在 BIREME 工作 ， 这 是 PAHO/WHO (Pan-American Health Organization/World 
Health Organization， 泛 美 卫生 组 织 /世界 卫生 组 织 ) 在 圣保罗 运营 的 一 家 数字 图 书馆 。 
BIREME 制作 的 众多 书目 数据 集中 包含 LILACS (Latin American and Caribbean Health 
Sciences index， 拉 美和 加 勒 比 地 区 健康 科学 索引 ) 和 SciELO (Scientific Electronic Library 
星子 科学 在 线 图 书馆 ) ， 这 两 个 数据 库 完 整 索引 了 这 一 地 区 发 布 的 科学 和 技术 作品 。 


从 20 世纪 80 年 代 后 期 开始 ， 管 理 LILACS 的 数据 库 系统 是 CDS/ISIS。 这 是 UNESCO JF 
发 的 非 关系 型 文档 数据 库 ， 后 来 为 了 在 GNU/Linux 服务 器 上 运行 ，BIREME 使 用 C 语言 
重 写 了 。 我 的 工作 之 一 是 探索 替代 方案 ， 把 LILACS 移植 到 现代 的 开源 文档 数据 库 (最 终 
还 要 移植 大 得 多 的 SciELO), ， 例 如 CouchDB 或 MongoDB, 


在 探索 的 过 程 中 ， 我 编写 了 一 个 Python 脚本 一 一 isis2json.py， 把 CDS/ISIS 文件 转换 成 
适合 导入 CouchDB 或 MongoDB 的 JSON 文件 。 起 初 ， 这 个 脚本 读 取 文件 的 是 CDS/ISIS 
导出 的 ISO-2709 格式 。 读 写 过 程 必须 采用 渐进 方式 ， 因 为 完整 的 数据 集 比 主 内 存 大 得 
多 。 解 决 方法 很 简单 : E for 循环 每 次 迭代 时 从 iso 文件 中 读 取 一 个 记录 ， 转 换 后 将 其 写 
入 json 文件 。 

然而 ， 在 实际 操作 中 有 必要 让 isis2json.py 支持 CDS/ISIS 的 另 一 种 数据 格式 一 一 BIREME 
在 生产 环境 中 使 用 的 二 进 制 .mst 文件 ， 避 免 导 出 为 ISO-2709 格式 时 消耗 过 多 资源 。 
现在 我 遇 到 一 个 问题 : 用 来 读 取 ISO-2709 和 .mst 文件 的 库 提供 的 API 差别 很 大 。 而 输出 
JSON 格式 的 循环 已 经 很 复杂 了 ， 因 为 这 个 脚本 要 接受 多 个 命令 行 选项 ， 每 次 输出 时 调整 
记录 的 结构 。 在 同一 个 for 循环 中 使 用 两 个 不 同 的 API， 同 时 还 要 生成 JSON， 这 样 太 难 










































































Online, 













































































360 | #142 


以 管理 了 o 

ERT TERE RES, SEP SE at eB. 一 个 国 数 支持 一 种 输入 格式 。 最 终 ， 
我 把 isis2json.py 脚本 分 成 了 四 个 函数 。 使 用 Python 2 编写 的 主 脚本 如 示例 A-5， 带 依赖 
的 完整 源码 在 GitHub 中 的 fluentpython/isis2json 仓库 里 (https://github.com/fluentpython/ 


isis2json ) 。 
下 面 概览 这 个 脚本 的 结构 。 
main 


main 函数 使 用 argparse 模块 读 取 命 令 行 选项 ， 用 于 配置 输出 记录 的 结构 。 根 据 输入 文 
件 的 扩展 名 ，main 国 数 会 选择 一 个 合适 的 生成 器 国 数 ， 逐 个 读 取 数 据 ， 然 后 产 出 记录 。 


iter_iso_records 


这 个 生成 器 函数 用 于 读 取 iso 文件 (假设 是 ISO-2709 格式 )， 有 两 个 参数 : 一 个 是 文件 
名 ; 另 一 个 是 isis_json_type， 即 一 个 与 记录 结构 有 关 的 选项 。 在 这 个 国 数 的 for 循环 
中 ， 每 次 妈 代 读 取 一 个 记录 ， 然 后 创建 一 个 空 字典 ， 把 数据 填充 进 字段 之 后 产 出 字典 。 


iter_mst_records 


这 也 是 一 个 生成 器 函数 ， 用 于 读 取 mst 文件 。" 阅读 isis2json.py 脚本 的 源码 后 你 会 发 
现 ， 这 个 函数 没有 iter_iso_records 函数 简单 ， 不 过 接口 和 整体 结构 是 相同 的 ， 参数 
是 文件 名 和 isis_json_type，for 循环 每 次 迭代 时 构建 并 产 出 一 个 字典 ， 表 示 一 个 记录 。 


write_json 


这 个 函数 把 记录 输出 为 JSON 格式 ， 而 且 一 次 输出 一 个 记录 。 它 的 参数 很 多 ， 其 中 第 
一 个 参数 (input_gen) 是 对 某 个 生成 器 函数 的 引用 : iter_iso_records 或 iter_mst_ 
records, write_json cA ACAI for JAKA input_gen 引用 的 生成 器 产 出 的 字典 ， 根 据 
命令 行 选项 设 定 的 方式 处 理 ， 然 后 把 ISON 格式 的 记录 附加 到 输出 文件 里 。 
我 利用 生成 器 函数 解 厢 了 读 逻 辑 和 写 逻 辑 。 当 然 ， 解 看 二 者 最 简单 的 方式 是 ， 把 所 有 记录 
读 进 内 存 ， 然 后 写 入 硬盘 。 可 是 这 样 并 不 可 行 ， 因 为 数据 集 很 大 。 而 使 用 生成 器 的 话 ， 可 
以 交叉 读 写 ， 因 此 这 个 脚本 可 以 处 理 任 意 大 小 的 文件 。 


现在 ， 如 果 isis2json.py 脚本 需要 再 支持 一 种 输入 格式 ， 比 如 说 美国 国会 图 书馆 用 于 表示 
ISO-2709 格式 数据 的 MARCXML 文档 格式 ， 只 需 再 添加 一 个 生成 器 函数 ， 实 现 读 逻 辑 ， 
而 复杂 的 write_json 函数 无 需 任何 改动 。 

这 不 是 什么 尖端 科技 ， 可 是 通过 这 个 实例 我 们 看 到 了 生成 器 的 灵活 性 。 使 用 生成 器 处 理 数 
据 库 时 ， 我 们 把 记录 看 成 数据 流 ， 这 样 消耗 的 内 存量 最 低 ， 而 且 不 管 数 据 有 多 大 都 能 处 
理 。 只 要 管理 着 大 型 数据 集 ， 都 有 可 能 在 实践 中 找到 机 会 使 用 生成 器 。 


























































































































注 15: 用 来 读 取 复杂 的 mst 二 进 制 文件 的 库 其 实 是 用 Java 编写 的 ， 因 此 只 有 使 用 Jython 解释 器 2.5 或 以 上 版 
本 执行 isis2json.py 脚本 才能 使 用 这 个 功能 。 详 情 参见 仓库 里 的 README.rst 文件 (https://github.com/ 
fluentpython/isis2json/blob/master/README.rst)。 因 为 依赖 在 需要 使 用 的 生成 器 函数 中 导入 ， 所 以 即便 
只 有 一 个 外 部 依赖 可 用 ， 这 个 脚本 仍 能 运行 。 
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下 一 节 讨 论 暂 时 要 跳 过 的 一 个 生成 器 特性 。 为 什么 要 跳 过 呢 ? 原因 如 下 。 


14.14 把 生成 器 当成 协 程 


Python 2.2 引入 了 yield 关键 字 实现 的 生成 器 函数 ， 大 约 五 年 后 ，Python 2.5 实现 了 “PEP 
342 一 Coroutines via Enhanced Generators” (https:/www.python.org/dev/peps/pep-0342/)。 这 
个 提案 为 生成 器 对 象 添加 了 额外 的 方法 和 功能 ， 其 中 最 值得 关注 的 是 .send() 方法 。 


与 ._next_() 方 法 一 样 ，.send() 方 法 致使 生成 器 前 进 到 下 一 个 yield 语 句 。 不 
过 ，.send() 方法 还 允许 使 用 生成 器 的 客户 把 数据 发 给 自己 ， 即 不 管 传 给 .send() 方法 
什么 参数 ， 那 个 参数 都 会 成 为 生成 器 国 数 定义 体 中 对 应 的 yield 表达 式 的 值 。 也 就 是 
说 ，.send() 方法 允许 在 客户 代码 和 生成 器 之 间 双 向 交换 数据 。 而 next O 方法 只 允许 
客户 从 生成 器 中 获取 数据 。 

这 是 一 项 重要 的 “改进 ”， 甚 至 改变 了 生成 器 的 本 性 : 像 这 样 使 用 的 话 ， 生 成 器 就 变 身 为 协 
程 。 在 PyCon US 2009 期 间 举 办 的 一 场 著名 的 课程 中 (http://www.dabeaz.com/coroutines/)， 
David Beazley (可 能 是 Python 社区 中 在 协 程 方面 最 多 产 的 作者 和 演讲 者 ) 提醒 道 : 


。 生成 器 用 于 生成 供 选 代 的 数据 

。 协 程 是 数据 的 消费 者 

。 为 了 避免 脑袋 炸 裂 ， 不 能 把 这 两 个 概念 混为一谈 

。 协 程 与 选 代 无 关 

。 2S, 虽然 在 协 程 中 会 使 用 yield 产 出 值 ， 但 这 与 迁 代 无 关 “ 


























David Beazley 
“A Curious Course on Coroutines and Concurrency” 


会 遵从 他 的 建议 ， 至 此 结束 本 章 〈 因 为 本 章 真正 讨论 的 是 迭代 技术 ) ， 而 不 涉及 把 生成 
器 当成 协 程 使 用 的 send 方法 和 其 他 特性 。 第 16 章 会 讨论 协 程 。 


14.15 本章 小 结 


Python iB BIKA REIL A, ARAL, Python 已 经 融合 (grok) 了 迭代 
器 。 Python 从 语义 上 集成 迭代 器 模式 是 个 很 好 的 例证 ， 说 明 设 计 模 式 在 各 种 编程 语言 
使 用 的 方式 并 不 相同 。 在 Python 中 ， 自 己 动手 实现 的 典型 迭代 器 (如 示例 14-4 所 示 ) ve 
有 实际 用 途 ， 只 能 用 作 教学 示例 。 

本 章 中 编写 了 一 个 类 的 几 个 版 本 ， 用 于 读 取 内 容 可 能 很 多 的 文件 ， 并 返 代 里 面 的 单词 。 因 
为 用 了 生成 器 ， 所 以 在 重 构 的 过 程 中 ，Sentence 类 越 来 越 简短 ， 越 来 越 易 于 阅读 。 最 终 ， 
我 们 知道 了 生成 器 的 工作 原理 。 










































































注 16: 摘自 “A Curious Course on Coroutines and Concurrency” (http://www.dabeaz.com/coroutines/Coroutines.pdf ) 
的 第 33 张 幻灯 片 ， 题 为 “Keeping It Straight”。 

注 17: 根据 新 黑客 字典 (Jargon file, http://catb.org/~esr/jargon/html/G/grok.html), grok 的 意思 不 仅 是 学 会 了 
新 知识 ， 还 要 充分 吸收 知识 ， 做 到 “人 剑 合 一 ”。 
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后 来 ， 我 们 编写 了 一 个 用 于 生成 等 差 数 列 的 生成 器 ， 还 说 明了 如 何 利用 itertoots 模块 做 
简化 。 随 后 ， 概 览 了 标准 库 中 24 个 通用 的 生成 器 函数 。 

接着 ， 我 们 分 析 了 内 置 的 iter 函数 ， 首先 说 明 ， 以 iter(o) 的 形式 调用 时 返回 的 是 迭代 
ars 之 后 分 析 ， 以 iter(func，sentinel) 的 形式 调用 时 ， 能 使 用 任何 函数 构建 迭代 器 。 

分 析 实 例 时 ， 我 说 明了 一 个 数据 库 转 换 工 具 的 实现 方式 ， 指 明 如 何 使 用 生成 器 函数 解 耦 读 
写 逻 辑 ， 如 何 高 效 处 理 大 型 数据 集 ， 以 及 如 何 轻易 支持 多 种 数据 输入 格式 。 

本 章 还 提 到 了 Python 3.3 PBL yield from 句法 ， 还 有 协 程 。 这 里 只 对 二 者 做 了 简单 
介绍 ， 本 书后 面 会 更 为 深入 地 讨论 。 


a += 
14.16 ”延伸 阅读 
在 Python 语言 参考 手册 中 ,“6.2.9. Yield expressions” (https://docs.python.org/3/reference/ 


expressions.html#yieldexpr) 从 技术 层面 深入 说 明了 生成 器 。 定 义 生 成 器 函数 的 PEP 是 
“PEP 255—Simple Generators” (https:Wwww.python.org/dev/peps/pep-0255/) 。 



































itertools 模块 的 文档 (https://docs.python.org/3/library/itertools.html) 写 得 很 棒 ， 包 含 大 量 
示例 。 虽 然 那个 模块 里 的 函数 是 使 用 C 语言 实现 的 ， 不 过 文档 展示 了 如 何 使 用 Python 实 
现 部 分 函数 ， 这 通常 要 利用 模块 里 的 其 他 函数 。 用 法 示例 也 很 好 ， 例 如 ， 有 一 个 代码 片段 
说 明 如 何 使 用 accumulate 函数 计算 带 利 息 的 分 期 还 款 ， 得 出 每 次 要 还 多 少 。 文 档 中 还 有 一 
节 是 “Itertools Recipes”(https://docs.python.org/3/library/itertools.html#itertools-recipes)， 说 
明 如 何 使 用 itertools 模块 中 的 现 有 函数 实现 额外 的 高 性 能 函数 。 

在 David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 中 ， 第 4 
A 16 个 诀窍 涵盖 了 这 个 话题 ， 虽 然 角度 不 同 ， 但 都 关注 实际 应 用 。 

“What’s New in Python 3.3” (参见 “PEP 380: Syntax for Delegating to a Subgenerator” , https:// 
docs.python.org/3/whatsnew/3.3.html#pep-380-syntax-for-delegating-to-a-subgenerator) 通过 示例 
说 明了 yield from 名 法。 本 书 16.7 节 和 16.8 节 还 会 讨论 这 个 句法 。 

如 果 你 对 文档 数据 库 感 兴趣 ， 想 进一步 了 解 14.13 节 的 背景 ， 可 以 阅读 我 发 布 在 Code4Lib 
Journal (涵盖 图 书馆 与 技术 交集 ) 上 的 论文 ， 题 为 “From ISIS to CouchDB: Databases and 
Data Models for Bibliographic Records” (http://journal.code4lib.org/articles/4893), 其 中 有 
一 节 对 isis2json.py 脚本 做 了 说 明 。 这 篇 论文 的 剩余 内 容 说 明文 档 数 据 库 〈 如 CouchDB 和 
MongoDB) 实现 半 结 构 化 数据 模型 的 方式 ， 以 及 为 什么 这 种 模型 比 关 系 模型 更 适合 用 于 收 
集 书目 数据 。 
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生成 器 函数 的 语法 糖 多 一 些 更 好 
在 设计 不 同 目的 的 控制 和 显示 设备 时 ， 设 计 师 需要 确认 它们 之 间 具 有 明显 差异 。 





Donald Norman 
《设计 心理 学 》 


在 编程 语言 中 ， 源 码 是 “控制 和 显示 设备 ”。 我 觉得 Python 设计 得 特别 好 ， 源 码 的 可 
读 性 通常 很 高 ， 好 像 伪 代码 一 样 。 可 是 ， 没 有 什么 是 完美 的 。Guido van Rossum 应 该 
遵从 Donald Norman 的 建议 (如 上 述 引 文 )， 引 入 新 的 关键 字 ， 用 于 定义 生成 器 函数 ， 
而 不 该 继续 使 用 def。 其 实 , “PEP 255— Simple Generators” (https://www.python.org/ 
dev/peps/pep-0255/) 中 的 “BDFL Pronouncements” 一 节 已 经 提议 : 


深 藏 于 定义 体 中 的 “yield” 语 身 不 足以 提醒 语义 发 生 了 重大 变化 。 


可 是 ，Guido 讨厌 引入 新 关键 字 ， 而且 觉 得 这 项 提议 没有 说 服 力 ， 因 此 我 们 只 好 被 迫 
接受 def。 
沿用 函数 身 法 定义 生成 器 会 导致 几 个 不 好 的 后 果 。 在 Politz 等 人 发 布 的 试验 成 果 论 
文 “Python, the Full Monty: A Tested Semantics for the Python Programming Language” '* 
中 ， 有 个 简单 的 生成 器 函数 示例 (这 篇 论文 的 4.1 节 ) : 
def f(): x=0 
while True: 
x += 1 
yield x 


然后 ， 论 文 的 作者 指出 ， 我 们 无 法 通过 函数 调用 抽象 产 出 这 个 过 程 (如 示例 14-24 所 示 )。 


示例 14-24 “(这 样 ) 似乎 能 简单 地 抽象 产 出 这 个 过 程 ”(Politz 等 人 ) 
def f(): 

def do_yield(n): 
yield n 

x=0 

while True: 
x += 1 
do_yield(x) 


如 果 调 用 示例 14-24 中 的 f()， 会 得 到 一 个 无 限 循环 ， 而 不 是 生成 器 ， 因 为 yteLd 关键 
字 只 能 把 最 近 的 外 层 函 数 变 成 生成 器 函数 。 虽 然 生 成 器 函数 看 起 来 像 函 数 ， 可 是 我 们 
不 能 通过 简单 的 肠 数 调用 把 职责 委托 给 另 一 个 生成 器 函数 。 与 此 相 比 ，Lua 语言 就 没 
有 强加 这 一 限制 。 在 Lua 中 ， 协 程 可 以 调用 其 他 函数 ， 而 且 其 中 任何 一 个 函数 都 能 把 
职责 交 给 原来 的 调用 方 。 








注 18: Joe Gibbs Politz, Alejandro Martinez, Matthew Milano, Sumner Warren, Daniel Patterson, Junsong Li, Anand Chiti- 
pothu, and Shriram Krishnamurthi, “Python: The Full Monty,” SIGPLAN Not. 48, 10 (October 2013), 217-232. 











Python 新 引入 的 yieLd from 向 法 允许 生成 器 或 协 程 把 工作 委托 给 第 三 方 完成 ， 这 样 
RAE RSE for MAGA LBS). ADAM A Geb yield from 能 “解决 ”示例 
14-24 中 的 问题 ， 如 示例 14-25 所 示 。 


示例 14-25 这样 才能 简单 地 抽象 产 出 这 个 过 程 
def f(): 

def do_yield(n): 
yield n 

x=0 

while True: 
X += 1 
yield from do_yield(x) 





沿用 def 声明 生成 器 犯 了 可 用 性 方面 的 错误 ， 而 Python 2.5 引入 的 协 程 (也 写成 包含 
yield 关键 字 的 函数 ) 把 这 个 问题 进一步 恶化 了 。 在 协 程 中 ，yielLd 碰巧 (通常 ) 出 现 
EDIE NG Fi, AA yield 用 于 接收 客户 传 给 .send() 方法 的 参数 。 正 如 David 
Beazley 所 说 的 : 


尽管 有 一 些 相同 之 处 ， 但 是 生成 器 和 协 程 基本 上 是 两 个 不 同 的 概念 。* 


我 觉得 协 程 也 应 该 有 专用 的 关键 字 。 读 到 后 文 你 会 发 现 ， 协 程 经 常会 用 到 特殊 的 装饰 
器 ， 这 样 就 能 与 其 他 的 函数 区 分 开 。 可 是 ， 生 成 器 函数 不 常 使 用 装饰 器 ， 因 此 我 们 不 
得 不 扫描 函数 的 定义 体 ， 看 有 没有 yield 关键 字 ， 以 此 判断 它 究 竟 是 普通 的 函数 ， 还 
是 完全 不 同 的 洪水 猛兽 。 

For 这 么 做 是 为 了 在 不 增加 向 法 的 前 提 下 支持 这 些 特性 ， 即 便 添 加 额外 的 
向 法 ， 也 只 是 “语法 糖 ”。 可 是 ， 如 果 能 让 不 同 的 特性 看 起 来 也 不 同 ， 那 么 我 更 喜欢 语 
法 糖 。Lisp 代码 难以 阅读 的 主要 原因 就 是 缺少 语法 糖 ， 这 也 导致 Lisp 语言 中 的 所 有 结 
构 看 起 来 都 像 是 函数 调用 。 


生成 器 与 迭代 器 的 语义 对 比 

思考 迁 代 器 与 生成 器 之 间 的 关系 时 ， 至 少 可 以 从 三 方面 入 手 。 

Pra 面 是 接口 。Python 的 选 代 器 协议 定义 了 两 个 方法 : _next_ fe __iter_, Em 
的 因此 从 这 方面 来 看 ， 所 有 生成 器 都 是 达 代 器 。 由 此 可 以 得 
rp， 内 置 的 enumerate() 池 数 创建 的 对 象 是 迭代 器 : 


>>> from collections import abc 
>>> e = enumerate('ABC') 

>>> isinstance(e, abc.Iterator) 
True 








注 


Hohe 


E 19: “A Curious Course on Coroutines and Concurrency” (http://www.dabeaz.com/coroutines/Coroutines.pdf), #5 





31 张 幻 灯 片 。 
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第 二 方面 是 实现 方式 。 从 这 个 角度 来 看 ， 生 成 器 这 种 Python 语言 结构 可 以 使 用 两 种 方 
式 编写 : 含有 yield 关键 字 的 函数 ， 或 者 生成 器 表达 式 。 调 用 生成 器 函数 或 者 执行 生 
成 器 表达 式 得 到 的 生成 器 对 象 属于 语言 内 部 的 GeneratorType 类 型 (https://docs.python. 
org/3/library/types.html#types.GeneratorType) 。 从 这 方面 来 看 ， 所 有 生成 器 都 是 和 迭代 器 ， 
为 GeneratorType 类 型 的 实例 实现 了 选 代 器 接口 。 不 过 ， 我 们 可 以 编写 不 是 生成 器 
的 选 代 器 ， 方 法 是 实现 经 典 的 选 代 器 模式 ， 如 示例 14-4 所 示 ， 或 者 使 用 C 语言 编写 扩 
展 。 从 这 方面 来 看 ，enumerate 对 象 不 是 生成 器 : 

>>> import types 

>>> e = enumerate('ABC') 


>>> isinstance(e, types.GeneratorType) 
False 


这 是 因为 types.GeneratorType X Æ (https://docs.python.org/3/library/types.html#types.Gen- 
eratorType) 是 这 样 定义 的 :“ 生 成 器 一 达 代 器 对 象 的 类 型 ， 调 用 生成 器 函数 时 生成 。 


第 三 方面 是 概念 。 根 据 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 定义 ， 在 典 
型 的 达 代 器 设计 模式 中 ,入 代 器 用 于 遍历 集合 ， 从 中 产 出 元 素 。 选 代 器 可 能 相当 复杂 ， 
例如 ， 遍 历 树 状 数据 结构 。 但 是 ， 不 管 典 型 的 选 代 器 中 有 多 少 远 辑 ， 都 是 从 现 有 的 数 
据 源 中 读 取 值 ; 而且， 调用 next(it) 时 ， 选 代 器 不 能 修改 从 数据 源 中 读 取 的 值 ， 只 能 
原封 不 动 地 产 出 值 。 


而 生成 器 可 能 无 需 遍 历 集 合 就 能 生成 值 ， 例 如 range hA, PERWIRA, ARS 
不 仅 能 产 出 集合 中 的 元 素 ， 还 可 能 会 产 出 派生 自 元 素 的 其 他 值 。enumerate 函数 是 很 好 
的 例子 。 根 据 和 迭代 器 设计 模式 的 原始 定义 ，enumerate 函数 返回 的 生成 器 不 是 选 代 器 ， 
因为 创建 的 是 生成 器 产 出 的 元 组 。 


从 概念 方面 来 看 ， 实 现 方 式 无 关 紧 要 。 不 使 用 Python 生成 器 对 象 也 能 编写 生成 器 。 为 
了 表明 这 一 点 ， 我 写 了 一 个 斐 波 纳 契 数列 生成 器 ， 如 示例 14-26 所 示 。 





示例 14-26 fibo_by_hand.py: 不 使 用 GeneratorType 实例 实现 斐 波 纳 契 数列 生成 器 


class Fibonacci: 


def __iter__(self): 
return FibonacciGenerator() 


class FibonacciGenerator: 


def _ init__(self): 
self.a = 0 
self.b = 1 


def __next__(self): 
result = self.a 
self.a, self.b = self.b, self.a + self.b 
return result 














def __iter__(self): 
return self 
示例 14-26 RATA, @RA-PDRAYTH, HS Python 风格 的 翡 波 纳 契 数列 生成 
器 如 下 所 示 : 
def fibonacci(): 
a, b=0, 1 
while True: 
yield a 
a, b=b, a+b 
当然 ， 始 终 可 以 使 用 生成 器 这 个 语言 结构 履行 选 代 器 的 基本 职责 : 遍历 集合 ， 并 从 中 
PRAR, 
FRE, Python 程序 员 不 会 严格 区 分 二 者 ， 即 便 在 官方 文档 中 也 把 生成 器 称 作 选 代 器 。 
Python 词汇 表 (https://docs.python.org/dev/glossary.html#term-iterator) 对 迭代 器 下 的 权 
UL LRA, 涵盖 了 人选 代 器 和 生成 器 。 
BARB: 表示 数据 流 的 对 象 …… 
建议 你 读 一 下 Python 词汇 表 中 对 和 迭代 器 的 完整 定义 (https://docs.python.org/3/glossary. 
html#term-iterator) 。 而 在 生成 器 的 定义 中 (https://docs.python.org/3/glossary.html#term- 
generator) ， 选 代 器 和 生成 器 是 同义词 ,“ 生 成 器 ” 指 代 生成 器 函数 ， 以 及 生成 器 函数 构 
建 的 生成 器 对 象 。 因 此 ， 在 Python 社区 的 行 话 中 ,， 选 代 器 和 生成 器 在 一 定 程度 上 是 同 
义 词 。 
Python 中 最 简 的 迭代 器 接口 
《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 讲解 选 代 器 模式 时 ， 在 “实现 ”一 节 中 
说 道 : ” 
迭代 器 的 最 小 接口 由 First、Next、IsDone 和 CurrentItem 操作 组 成 。 
不 过 ， 这 向 话 有 个 脚注 : 
甚至 可 以 将 Next、IsDone 和 CurrentItem 并 入 到 一 个 操作 中 ， 该 操作 前 进 到 下 一 
个 对 象 并 返回 这 个 对 象 ， 如 果 遍 历 结 束 ， 那 么 这 个 操作 返回 一 个 特定 的 值 〈 例 
如 ，0) 标志 该 选 代 结束 。 这 样 我 们 就 使 这 个 接口 变 得 更 小 了 。 
这 与 Python 的 做 法 接近 : 只 用 一 个 _next “方法 完成 这 项 工作 。 不 过 ， 为 了 表明 选 代 
结束 ， 这 个 方法 没有 使 用 哨 符 ， 因 为 哨 符 可 能 不 小 心 被 忽略 ， 而 是 使 用 StopIteration 
异常 。 简 单 且 正确 ， 这 正 是 Python 之 道 。 














注 20:《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 第 174 页 。 
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上 下 文 管理 器 和 etLse 块 





最 终 ， 上 下 文 管理 器 可 能 几乎 与 子 程序 (subroutine) 本 身 一 样 重 要 。 目 前 ， 我 们 只 
了 解 了 上 下 文 管理 器 的 皮毛 …… Basic 语言 有 with 语句 ， 而 且 很 多 语言 都 有 。 但 是 ， 
在 各 种 语言 中 with 语句 的 作用 不 同 ， 而 且 做 的 都 是 简单 的 事 ， 虽 然 可 以 避免 不 断 使 
用 点 号 查找 属性 ， 但 是 不 会 做 事前 准备 和 事后 清理 。 不 要 觉得 名 字 一 样 ， 就 意味 着 
作用 也 一 样 。with 语 向 是 非常 了 不 起 的 特性 。 





Raymond Hettinger 
雄辩 的 Python 布道 者 

本 章 讨论 其 他 语言 中 不 常见 的 一 些 流 程控 制 特 性 ， 正 因 如 此 ，Python 用 户 往 往 会 忽视 或 没 

有 充分 使 用 这 些 特性 。 下 面 要 讨论 的 特性 有 : 

e with 语句 和 上 下 文 管理 喜 

e for, while 和 try 语句 的 else 子 句 

with 语句 会 设置 一 个 临时 的 上 下 文 ， 交 给 上 下 文 管理 器 对 象 控制 ， 并 且 负 责 清理 上 下 文 。 

这 么 做 能 避免 错误 并 减少 样板 代码 ， 因 此 API 更 安全 ， 而 且 更 易于 使 用 。 除 了 自动 关闭 文 

件 之 外 ，with 块 还 有 很 多 用 途 。 

else 子 句 与 with 语句 完全 没有 关系 。 可 是 已 经 写 到 第 五 部 分 了 ， 我 找 不 到 其 他 地 方 介绍 

elLse， 又 不 能 单 写 只 有 一 页 内 容 的 一 章 ， 因 此 就 在 这 一 章 讨 论 了 。 

下 面 从 这 个 较 小 的 话题 开始 ， 进 入 本 章 的 实质 内 容 。 




































































注 1: 节选 自 PyCon US 2013 主题 演讲 “What Makes Python Awesome” (http://pyvideo.org/video/1669/keynote-3) ; 
关于 with 的 部 分 从 23:00 开始 ， 到 26:15 结束 。 
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15.1 先 做 这 个 ， 再 做 那个 : if 语句 之 外 的 eLse 块 


这 个 语言 特性 不 是 什么 秘密 ,但 却 没 有 得 到 重视 : else 子 句 不 仅 能 在 if 语句 中 使 用 ， 还 
能 在 for, while 和 try 语句 中 使 用 。 
for/else, while/else 和 try/else 的 语义 关系 紧密 ， 不 过 与 if/else 差别 很 大 。 起 初 ， 
else 这 个 单词 的 意思 阻碍 了 我 对 这 些 特性 的 理解 ， 但 是 最 终 我 习惯 了 。 
else 子 句 的 行为 如 下 。 


for 


仅 当 for 循环 运行 完毕 时 ( 即 for 循环 没有 被 break 语句 中 止 ) 才 运 行 else 块 。 


while 


(X24 while 循环 因为 条 件 为 假 值 而 退出 时 〈 即 while 循环 没有 被 break 语句 中 止 ) 才 运 
行 else 块 。 


try 


仅 当 try 块 中 没有 异常 抛 出 时 才 运 行 else 块 。 官方 文档 (https://docs.python.org/3/ 
reference/compound_stmts.html) 还 指出 :“else 子 句 抛 出 的 异常 不 会 由 前 面 的 except 子 
句 处 理 。” 


在 所 有 情况 下 ， 如 果 异 常 或 者 return, break 或 continue 语句 导致 控制 权 跳 到 了 复合 语句 
的 主 块 之 外 ，else 子 句 也 会 被 跳 过 。 


我 觉得 除了 if 语句 之 外 ， 其 他 语句 选择 使 用 else 关键 字 是 个 错误 。eltse Zit 
含 着 “排他 性 ”这 层 意 思 ， 例 如 “要 么 运行 这 个 循环 ， 要 么 做 那 件 事 "。 可 是 ， 
在 循环 中 ，else 的 语义 恰好 相反 :“ 运 行 这 个 循环 ， 然 后 做 那 件 事 。” 因此， 
使 用 then 关键 字 更 好 。then 在 try 语句 的 上 下 文中 也 说 得 通 :“ 尝 试 运行 这 
个 ， 然 后 做 那 件 事 。” 可是， 添加 新 关键 字 属 于 语言 的 重大 变化 ， 而 Guido ME 
已 避 之 不 及 。 









































在 这 些 语句 中 使 用 else 子 句 通常 能 让 代码 更 易于 阅读 ， 而 且 能 省 去 一 些 麻 烦 ， 不 用 设置 控 
制 标 志 或 者 添加 额外 的 if 语句 。 


在 循环 中 使 用 else 子 句 的 方式 如 下 述 代 码 片 段 所 示 : 


for item in my_list: 
if item.flavor == 'banana': 
break 





else: 
raise ValueError('No banana flavor found!') 


一 开始 ， 你 可 能 觉得 没 必 要 在 try/except 块 中 使 用 else 子 句 。 毕 竟 ， 在 下 述 代码 片段 中 ， 
只 有 dangerous_call() 不 抛 出 异常 ，after_call() 才 会 执行 ， 对 吧 ? 
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try? 
dangerous_call() 
after_call() 
except OSError: 
log('OSError...') 


然而 ，after_calLL() 不 应 该 放 在 try 块 中 。 为 了 清晰 和 准确 ，try 块 中 应 该 只 抛 出 预期 异 
常 的 语句 。 因 此 ， 像 下 面 这 样 写 更 好 : 


try: 

dangerous_call() 
except OSError: 

log('OSError...') 
else: 

after_call() 




















现在 很 明确 ，try 块 防 守 的 是 dangerous_call() 可 能 出 现 的 错误 ， 而 不 是 after_call(), 
而 且 很 明显 ， 只 有 try 块 不 抛 出 异常 ， 才 会 执行 after_call()。 

在 Python 中，try/except 不 仅 用 于 处 理 错 误 ， 还 常用 于 控制 流程 。 为 此 ，Python 官方 词汇 
表 (https://docs.python.org/3/glossary.html#term-eafp) 还 定义 了 一 个 缩 略 词 (口号 )。 























EAFP 
取得 原谅 比 获 得 许可 容易 (easier to ask for forgiveness than permission), ix — 
种 常见 的 Python 编程 风格 ， 先 假定 存在 有 效 的 键 或 属性 ， 如 果 假 定 不 成 立 ， 那 
么 捕获 异常 。 这 种 风格 简单 明快 ， 特 点 是 代码 中 有 很 多 try 和 except 4, 5 
其 他 很 多 语言 一 样 (如 C 语言 )， 这 种 风格 的 对 立 面 是 LBYL 风格 。 
接 下 来 ,词汇 表 定 义 了 LBYL。 
LBYL 
三 思 而 后 行 (look before you leap) 。 这 种 编程 风格 在 调用 函数 或 查找 属性 或 键 之 
前 显 式 测试 前 提 条 件 。 与 EAFP 风格 相反 ， 这 种 风格 的 特点 是 代码 中 有 很 多 if 
语句 。 在 多 线程 环境 中 ，LBYL 风格 可 能 会 在 “检查 ”和 “行事 ”的 空当 引入 条 
件 竞 争 。 例如， 对 if key in mapping: return mapping[key] 这 段 代码 来 说 ， 如 
果 在 测试 之 后 ， 但 在 查找 之 前 ， 另 一 个 线程 从 映射 中 删除 了 那个 键 ， 那 么 这 段 代 
码 就 会 失败 。 这 个 问题 可 以 使 用 锁 或 者 EAFP 风格 解决 。 
如 果 选 择 使 用 EAFP 风格 ， 那 就 要 更 深入 地 了 解 else 子 句 ， 并 在 try/except 语句 中 合理 
使 用 。 


下 面 探讨 本 章 的 主要 话题 ， 强 大 的 with 语句 。 


15.2 上下文 管理 器 和 with 块 


上 下 文 管理 器 对 象 存在 的 目的 是 管理 with 语句 ， 就 像 迁 代 器 的 存在 是 为 了 管理 for 语句 
一 样 。 
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with 语句 的 目的 是 简化 try/finally 模式 。 这 种 模式 用 于 保证 一 段 代 码 运 行 完毕 后 执行 某 
项 操作 ， 即 便 那 段 代 码 由 于 异常 、return 语句 或 sys.exit() 调用 而 中 止 ， 也 会 执行 指定 的 
BEE. finally 子 句 中 的 代码 通常 用 于 释放 重要 的 资产， 或 者 还 原 临时 变更 的 状态 。 

上 下 文 管理 器 协议 包含 _enter Fl __exit_ 两 个 方法 。with 语句 开始 运行 时 ， 会 在 上 下 
文 管理 器 对 象 上 调用 enter Hik. with 语句 运行 结束 后 ， 会 在 上 下 文 管理 器 对 象 上 调 
H exit 方法， 以 此 扮演 finally 子 名 的 角色 。 

最 常见 的 例子 是 确保 关闭 文件 对 象 。 使 用 with 语句 关闭 文件 的 详细 说 明 参 见 示例 15-1。 
示例 15-1 演示 把 文件 对 象 当 成 上 下 文 管理 器 使 用 


>>> with open('mirror.py') as fp: # © 
src = fp.read(60) #@ 


























>>> len(src) 
60 
>>> fp #06 
<_io.TextIOWrapper name='mirror.py' mode='r' encoding='UTF-8'> 
>>> fp.closed, fp.encoding # @ 
(True, 'UTF-8') 
>>> fp.read(60) #@ 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
ValueError: I/O operation on closed file. 


O fp 绑 定 到 打开 的 文件 上 ， 因 为 文件 的 _enter_ “方法 返回 self, 

O 从 fp 中 读 取 一 些 数 据 。 

© fp 变量 仍然 可 用 。” 

O 可 以 读 取 fp 对 象 的 属性 。 

O 但 是 不 能 在 fp 上 执行 VO 操作 ， 因 为 在 with 块 的 末尾 ， 调 用 TextIONWrapper .exit 
方法 把 文件 关闭 了 。 

示例 15-1 中 标注 @ 的 那 行 代码 道 出 了 不 易 察 觉 但 很 重要 的 一 点 执行 with 后 面 的 表达 式 

得 到 的 结果 是 上 下 文 管理 器 对 象 ， 不 过 ， 把 值 绑 定 到 目标 变量 上 (as 子 句 ) 是 在 上 下 文 管 

理 器 对 象 上 调用 _enter_ “方法 的 结果 。 

WEES, AN Pil 15-1 中 的 open() 函数 返回 TextIONrapper 类 的 实例 ， 而 该 实例 的 _enter_ FF 

法 返回 self, PiE, enter ”方法 除了 返回 上 下 文 管理 器 之 外 ， 还 可 能 返回 其 他 对 象 。 

不 管控 制 流 程 以 哪 种 方式 退出 with 块 ， 都 会 在 上 下 文 管理 器 对 象 上 调用 __exit_ 方法 ， 

而 不 是 在 _enter_ “方法 返回 的 对 象 上 调用 。 

with 语句 的 as 子 句 是 可 选 的 。 对 open 函数 来 说 ， 必 须 加 上 as 子 句 ， 以 便 获 取 文 件 的 引 

用 。 不 过 ， 有 些 上 下 文 管理 器 会 返回 None， 因 为 没什么 有 用 的 对 象 能 提供 给 用 户 。 

示例 15-2 使 用 一 个 精心 制作 的 上 下 文 管理 器 执行 操作 ， 以 此 强调 上 下 文 管理 器 与 _enter 

方法 返回 的 对 象 之 间 的 区 别 。 








= 














































































































TE 2: 与 函数 和 模块 不 同 ，with 块 没有 定义 新 的 作用 域 。 
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示例 15-2 测试 LookingGlass 上 下 文 管理 器 类 
>>> from mirror import LookingGlass 
>>> with LookingGlass() as what: @ 


print('Alice, Kitty and Snowdrop') @ 


print(what) 


pordwonS dna yttik ,ecilA © 
YKCOWREBBAJ 

>>> what @ 

"JABBERWOCKY ' 

>>> print('Back to normal.') © 
Back to normal. 

















O 上 下 文 管理 器 是 LookingGlass 类 的 实例 ，Python 在 上 下 文 管理 








法 ， 把 返回 结果 绑 定 到 what 上 。 
O 打印 一 个 字符 串 ， 然 后 打印 what 变量 的 值 。 
© 打印 出 的 内 容 是 反 向 的 。 

















O 现在 ，with 块 已 经 执行 完毕 。 可 以 看 出 ，_enter_ 方法 返回 


量 中 的 值 一 一 是 字符 串 'JABBERNOCKY , 
O 输出 不 再 是 反 向 的 了 。 


示例 15-3 是 LookingGlass 类 的 实现 。 





示例 15-3 mirror.py: LookingGlass 上 下 文 管理 器 类 的 代码 


class LookingGlass: 


def _enter_(self): @ 
import sys 


self.original_write = sys.stdout.write @ 
sys.stdout.write = self.reverse_ write @ 


return 'JABBERWOCKY' @ 


def reverse_write(self, text): © 
self.original_write(text[::-1]) 


def _ exit_ (self, exc_type, exc_value, traceback): @ 


import sys @ 


sys.stdout.write = self.original_write O 


if exc_type is ZeroDivisionError: 


print('Please DO NOT divide by zero!') 


return True @ 


0 


roo 
o 
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的 





全 


一 一 即 存储 在 what 变 














@ 除了 self 之 外 ，Python 调用 _enter ”方法 时 不 传人 其 他 参数 。 


O 把 原来 的 sys,stdout.write 方法 保存 在 一 个 实例 属性 中 ， 供 后 











MEH. 








© 为 sys.stdout.write 打 猴 子 补丁 ， 替 换 成 自己 编写 的 方法 。 








@ 返回 'JABBERWOCKY' 字符 串 ， 这 样 才 有 内 容 存 入 目标 变 








a 


4 


E. 





what, 


O 这 是 用 于 取代 sys.stdout.write 的 方法 ， 把 text 参数 的 内 容 反 转 ， 然 后 调用 原来 的 实现 。 
O 如 果 一 切 正常 ，Python 调用 _exit “方法 时 传人 的 参数 是 None, None, None; 如 有 果 抛 








出 了 异常 ， 这 三 个 参数 是 异常 数据 ， 如 下 所 述 。 





O 重复 导入 模块 不 会 消耗 很 多 资源 ， 因 为 Python 会 缓存 导入 的 模块 。 

© 还 原 成 原来 的 sys.stdout.write 方法 。 

O 如 果 有 异常 ， 而 且 是 ZeroDivisionError 类 型 ， 打 印 一 个 消息 …… 

O- 然后 返回 True， 告 诉 解释 器 ， 异 常 已 经 处 理 了 。 

O 如 果 _exit “方法 返回 None, 或 者 True 之 外 的 值 ，with 块 中 的 任何 异常 都 会 向 上 冒 泡 。 


在 实际 使 用 中 ， 如 果 应 用 程序 接管 了 标准 输出 ， 可 能 会 暂时 把 sys.stdout 换 
成 类 似 文件 的 其 他 对 象 ， 然 后 再 切换 成 原来 的 版 本 。contextlib.redirect_ 
stdout 上 下 文 管理 器 (https://docs.python.org/3/library/contextlib.html#contextlib. 
redirect_stdout) 就 是 这 么 做 的 ， 只 需 传 入 类 似 文 件 的 对 象 ， 用 于 替代 sys. 


stdout, 




















解释 器 调用 __enter_ 方法 时 ， 除 了 隐 式 的 self 之 外 ， 不 会 传人 任何 参数 。 传 给 exit 
方法 的 三 个 参数 列举 如 下 。 


exc_type 
异常 类 (例如 ZeroDivisionError)。 


exc_value 


党 实例。 有 时 会 有 参数 传 给 异常 构造 方法 ， 例 如 错误 消息 ， 这 些 参 数 可 以 使 用 exc 
ike 获取 。 


traceback 
traceback 对 象 。; 


上 下 文 管理 器 的 具体 工作 方式 参见 示例 13-4。 在 这 个 示例 中 ， 我 们 在 with 块 之 外 使 用 
LookingGlass 类 ， 因 此 可 以 手动 调用 _enter _ 和 _exit_ 方法 。 


示例 15-4 在 with 块 之 外 使 用 LookingGlass 类 
>>> from mirror import LookingGlass 
>>> manager = LookingGlass() @ 
>>> Manager 
<mirror.LookingGlass object at 0x2a578ac> 
>>> monster = manager.__enter_() @ 
>>> monster == 'JABBERWOCKY' © 
eurT 
>>> monster 
"YKCOWREBBAJ ' 
>>> Manager 
>ca875a2x0 ta tcejbo ssalGgnikooL.rorrim< 
>>> manager.__exit__(None, None, None) @ 
>>> monster 
"JABBERWOCKY ' 























注 3: 在 try/finally 语句 的 finally 块 中 调用 sys.exc_info() (https://docs.python.org/3/library/sys.html#sys.exc_ 
info)， 得 到 的 就 是 _exit “接收 的 这 三 个 参数 。 鉴 于 with 语句 是 为 了 取代 大 多 数 try/finally if 4 
而 且 通 常 需要 调用 sys.exc_info() 来 判断 做 什么 清理 操作 ， 这 种 行为 是 合理 的 。 
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@ 实例 化 并 审查 manager 实例 。 

O 在 上 下 文 管理 器 上 调用 _enter_() 方法 ， 把 结果 存储 在 monster 中 。 

© monster 的 值 是 字符 串 'JABBERWOCKY' 。 打 印 出 的 True 标识 符 是 反 向 的 ， 因 为 stdout 的 
所 有 输出 都 经 过 _enter “方法 中 打 补 丁 的 write 方法 处 理 。 

© 调用 manager.__exit__, 还原 成 之 前 的 stdout.write, 

上 下 文 管理 器 是 相当 新 颖 的 特性 ，Python 社区 肯定 还 在 不 断 寻 找 新 的 创意 用 法 。 标 准 库 中 

有 一 些 示例 。 

。 在 sqlite3 模块 中 用 于 管理 事务 ， 参 见 “12.6.7.3. Using the connection as a context manager” 

(https://docs.python.org/3/library/sqlite3.html#using-the-connection-as-a-context-manager), * 


。 在 threading 模块 中 用 于 维护 锁 、 条 件 和 人 信号， 参见 “17.1.10. Using locks, conditions, 
and semaphores in the with statement” (https://docs.python.org/3/library/threading. 






































html#using-locks-conditions-and-semaphores-in-the-with-statement) 。 

e Jj Decimal 对 象 的 算术 运算 设置 环境 ， 参 见 decimaL.LocaLcontext 国 数 的 文档 (https:// 
docs.python.org/3/library/decimal.html#decimal.localcontext) 。 

。 为 了 测试 临时 给 对 象 打 补丁 ， 参 见 unittest.mock.patch 函数 的 文档 (https://docs.python. 
org/3/library/unittest.mock.html#patch ) 。 


标准 库 中 还 有 个 contextlib 模块 ， 提 供 一 些 实用 工具 ， 参 见 下 一 市 。 


15.3 contextlib 模 块 中 的 实用 工具 


自己 定义 上 下 文 管理 器 类 之 前 ， 先 看 一 下 Python 标准 库 文档 中 的 “29.6 contextlib 一 
Utilities for with-statement contexts” (https://docs.python.org/3/library/contextlib.html)。 除 了 
前 面 提 到 的 redirect_stdout 函数 ，contextlib 模块 中 还 有 一 些 类 和 其 他 函数 ， 使 用 范围 
更 广 。 


closing 


如 有 果 对 象 提供 了 close() 方法 ， 但 没有 实现 _enter_/_exit_ 协议， 那么 可 以 使 用 这 
个 函数 构建 上 下 文 管理 器 。 


suppress 
构建 临时 忽略 指 定 异 常 的 上 下 文 管理 器 。 
@contextmanager 


这 个 装饰 器 把 简单 的 生成 器 函数 变 成 上 下 文 管理 器 ， 这 样 就 不 用 创建 类 去 实现 管理 器 协 
议 了 。 






























































ContextDecorator 


这 是 个 基 类 ， 用 于 定义 基于 类 的 上 下 文 管理 器 。 这 种 上 下 文 管理 器 也 能 用 于 装饰 函数 ， 
在 受 管理 的 上 下 文中 运行 整个 函数 。 


























注 4: 在 Python 3.5 文档 中 是 “12.6.8.3”。 一 一 编者 注 
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ExitStack 
这 个 上 下 文 管理 器 能 进入 多 个 上 下 文 管理 器 。with 块 结束 时 ，ExitSstack 按照 后 进 先 出 的 
顺序 调用 栈 中 各 个 上 下 文 管理 器 的 _exit “方法 。 如 果 事 先 不 知道 with 块 要 进入 多 少 个 
上 下 文 管理 器 ， 可 以 使 用 这 个 类 。 例 如 ， 同 时 打开 任意 一 个 文件 列表 中 的 所 有 文件 。 
显然 ， 在 这 些 实用 工具 中 ,使 用 最 广泛 的 是 econtextmanager 装饰 器 ， 因 此 要 格外 留心 。 
这 个 装饰 器 也 有 迷惑 人 的 一 面 ， 因 为 它 与 从 代 无 关 ， 却 要 使 用 yield 语句。 由 此 可 以 引出 
协 程 ， 这 是 下 一 章 的 主题 。 


15.4 ”使 用 @contextmanager 


@contextmanager 装饰 器 能 减少 创建 上 下 文 管理 器 的 样板 代码 量 ， 因 为 不 用 编写 一 个 完整 的 
X, 定义 __enter__ 和 __exit_ 方法 ,而 只 需 实现 有 一 个 yield 语句 的 生成 器 ， 生 成 想 让 
_enter__ 方法 返回 的 值 。 

在 使 用 @contextmanager 装饰 的 生成 器 中 ，yield 语句 的 作用 是 把 函数 的 定义 体 分 成 两 部 
分 : yield 语句 前 面 的 所 有 代码 在 with 块 开始 时 ( 即 解 释 器 调用 __enter__ 方法 时 ) 执行 ， 
yield 语句 后 面 的 代码 在 with 块 结束 时 ( 即 调用 exit H) 执行 。 

下 面 举 个 例子 。 示 例 15-5 使 用 一 个 生成 器 函数 代替 示例 15-3 中 定义 的 LookingGlass 类 。 


示例 15-5 mirror_gen.py: 使 用 生成 器 实现 的 上 下 文 管理 器 


import contextlib 












































>H 













































































N 














@contextlib.contextmanager © 
def looking_glass(): 
import sys 
original_write = sys.stdout.write @ 


def reverse write(text): © 
original_write(text[::-1]) 


sys.stdout.write = reverse_write @ 
yield 'JABBERWOCKY' @ 
sys.stdout.write = original_write @ 


@ 应 用 contextmanager 装饰 器 。 

O 贮存 原来 的 sys.stdout.write 方法 。 

© 定义 自 定义 的 reverse_write 函数 ， 在 闭 包 中 可 以 访问 original_write, 

© 把 sys.stdout.write 替换 成 reverse_write, 

O 产 出 一 个 值 ， 这 个 值 会 绑 定 到 with 语句 中 as 子 句 的 目标 变量 上 。 执 行 with 块 中 的 代 
码 时 ， 这 个 函数 会 在 这 一 点 暂停 。 

O 控制 权 一 旦 跳出 with 块 ， 继 续 执行 yield 语句 之 后 的 代码 ， 这 里 是 恢复 成 原来 的 sys. 
stdout.write 方法 。 


示例 15-6 是 使 用 Looking_gtass 国 数 的 例子 。 
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示例 15-6 ”测试 looking_glass 上 下 文 管理 器 国 数 
>>> from mirror_gen import looking_glass 
>>> with looking_glass() as what: @ 

print('Alice, Kitty and Snowdrop') 
print(what) 





pordwonS dna yttiK ,ecilA 
YKCOWREBBAJ 

>>> what 

' JABBERWOCKY ' 


O 与 示例 15-2 唯一 的 区 别 是 上 下 文 管理 器 的 名 字 : LookingGlass 变 成 了 looking_glass, 

其 实 ，contextlib.contextmanager 装饰 器 会 把 函数 包装 成 实现 _enter _ 和 _ exit_ ”方法 

的 类 。5 

这 个 类 的 _enter_ ”方法 有 如 下 作用 。 

(1) 调用 生成 器 函数 ， 保 存 生成 器 对 象 (这 里 把 它 称 为 gen), 

(2) 调用 next(gen) ， 执 行 到 yield 关键 字 所 在 的 位 置 。 

(3) 返回 next(gen) 产 出 的 值 ， 以 便 把 产 出 的 值 绑 定 到 with/as 语句 中 的 目标 变量 上 。 

with 块 终 止 时 ，_exit APRA MLA PLES 

(1) 检查 有 设 有 把 异常 传 给 exc_type; 如 果 有 ， 调 用 gen.throw(exception)， 在 生成 器 函数 
定义 体 中 包含 yield 关键 字 的 那 一 行 抛 出 异常 。 

(2) 否则 ， 调 用 next(gen), ， 继 续 执 行 生 成 器 函数 定义 体 中 yield 语句 之 后 的 代码 。 

示例 15-5 有 一 个 严重 的 错误 : 如 果 在 with 块 中 抛 出 了 异常 ，Python 解释 器 会 将 其 捕获 ， 

然后 在 looking_glass 函数 的 yield 表达 式 里 再 次 所 出 。 但 是 ， 那 里 没有 处 理 错误 的 代码 ， 

因此 Looking_glass 函数 会 中 止 ， 永 远 无 法 恢复 成 原来 的 sys.stdout.write 方 法， 导致 系 

统 处 于 无 效 状 态 。 

示例 15-7 添加 了 一 些 人 代码， 特别 用 于 处 理 ZeroDivisionError 异常 ， 这 样 ， 在 功能 上 它 就 

与 示例 15-3 中 基于 类 的 实现 等 效 了 。 

示例 15-7 mirror_gen_exc.py: 基于 生成 器 的 上 下 文 管理 器 ， 而 且 实 现 了 异常 处 理 一 一 从 

外 部 看 ,行为 与 示例 15-3 一 样 


import contextlib 





























二 
o 












































@contextlib.contextmanager 
def looking_glass(): 
import sys 
original_write = sys.stdout.write 


def reverse_write(text): 











注 5: 类 的 名 称 是 -GeneratorContextManager。 如 果 想 了 解 具体 的 工作 方式 ， 可 以 阅读 Python 3.4 发 行 版 中 Lib/ 
contextlib.py 文件 里 的 源码 (https://hg.python.org/cpython/file/3.4/Lib/contextlib.py#134) 。 








original_write(text[::-1]) 


sys.stdout.write = reverse_write 
mg='' © 
try: 
yield 'JABBERWOCKY ' 
except ZeroDivisionError: @ 
msg = 'Please DO NOT divide by zero!' 
finally: 
sys.stdout.write = original_write © 
if msg: 
print(msg) @ 


O 创建 一 个 变量 ， 用 于 保存 可 能 出 现 的 错误 消息 ， 与 示例 15-5 相 比 ， 这 是 第 一 处 改动 。 
@ 处 理 ZeroDivisionError 异常 ， 设 置 一 个 错误 消息 。 

© 撤销 对 sys.stdout.write 方法 所 做 的 猴子 补丁 。 

O 如 果 设 置 了 错误 消息 ， 把 它 打印 出 来 。 


前 面 说 过 ， 为 了 告诉 解释 器 异常 已 经 处 理 了 ，_exit “方法 会 返回 True， 此 时 解释 器 会 压制 
异常 。 如 果 _exit “方法 没有 显 式 返 回 一 个 值 ， 那 么 解释 器 得 到 的 是 None， 然 后 向 上 冒 泡 异 
常 。 使 用 @contextmanager 装饰 器 时 ， 默 认 的 行为 是 相反 的 : 装饰 器 提供 的 _exit “方法 假定 
发 给 生成 器 的 所 有 异常 都 得 到 处 理 了 ， 因 此 应 该 压制 异常 。" 如 果 不 想 让 @contextmanager HE 
制 异 常 ， 必 须 在 被 装饰 的 函数 中 显 式 重新 抛 出 异常 。” 





























使 用 @contextmanager 装饰 器 上 时， 要 把 yield 语句 放 在 try/finally 语句 中 
(或 者 放 在 with 语句 中 )， 这 是 无 法 避免 的 ， 因 为 我 们 永远 不 知道 上 下 文 管理 器 
的 用 户 会 在 with 块 中 做 什么 。* 








除了 标准 库 中 举 的 例子 之 外 ，Martijn Pieters 实现 的 原 地 文件 重 写 上 下 文 管理 器 (http:// 
www.zopatista.com/python/2013/11/26/inplace-file-rewriting/) 是 @contextmanager 不 错 的 使 
用 实例 。 用 法 如 示例 15-8 所 示 。 


示例 15-8 用 于 原 地 重 写 文件 的 上 下 文 管理 器 


import csv 


with inplace(csvfilename, 'r', newline='') as (infh, outfh): 
reader = csv.reader(infh) 
writer = csv.writer(outfh) 


for row in reader: 
row += ['new', "coLumns '] 
writer .writerow(row) 





ns 





6: 把 异常 发 给 生成 器 的 方式 是 使 用 throw 方法 ， 参 见 16.5 市 。 

7: 这 样 约定 的 原因 是 ,创建 上 下 文 管理 器 时 ， 生 成 器 无 法 返回 值 ， 只 能 产 出 值 。 不 过 ,现在 可 以 返回 值 
了 ， 如 16.6 节 所 述 。 届 时 你 会 看 到 ， 如 果 在 生成 器 中 返回 值 ， 那 么 会 抛 出 异常 。 

注 8: 这 条 提示 直接 引用 Leonardo Rochael 的 评论 ， 他 是 本 书 的 技术 审 校 之 一 。 说 得 好 ，Leo | 














ns 
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inplace 国 数 是 个 上 下 文 管理 器 ， 为 同一 个 文件 提供 了 两 个 句柄 (这 个 示例 中 的 infh 和 
outfh), ， 以 便 同 时 读 写 同一 个 文件 。 这 上 比 标准 库 中 的 fileinput.input 国 数 (https://docs. 
python.org/3/library/fileinput.html#fileinput.input; 顺便 说 一 下 ， 这 个 函数 也 提供 了 一 个 上 下 
文 管理 器 ) 易于 使 用 。 


如 果 想 学 习 Martijn 实现 inplace 的 源码 ( 列 在 这 篇 文章 中 : http://www.zopatista.com/ 
python/2013/11/26/inplace-file-rewriting/) ， 找 到 yield 关键 字 ， 在 此 之 前 的 所 有 代码 都 用 于 
设置 上 下 文 : 先 创建 备份 文件 ， 然 后 打开 并 产 出 enter 方法 返回 的 可 读 和 可 写 文件 句 
柄 的 引用 。yietLd 关键 字 之 后 的 exit 处 理 过 程 把 文件 句柄 关闭 ， 如 果 什 么 地 方 出 错 了 ， 
那么 从 备份 中 恢复 文件 。 


注意 ， 在 @contextmanager 装饰 器 装饰 的 生成 器 中 ，yield 与 迭代 没有 任何 关系 。 在 本 节 所 
举 的 示例 中 ， 生 成 器 函数 的 作用 更 像 是 协 程 : 执行 到 某 一 点 时 暂停 ， 让 客户 代码 运行 ， 直 
到 客户 让 协 程 继续 做 事 。 第 16 章 会 全 面 讨论 协 程 。 


15.5 本章 小 结 


本 章 从 简单 的 话题 人手 ， 先 讨论 了 for, while 和 try 语句 的 else 子 句 。 当 你 习惯 else 子 
句 在 这 些 语句 中 的 奇怪 意思 之 后 ， 我 相信 else 能 阐明 你 的 意图 。 

然后 ， 本 章 讨 论 了 上 下 文 管理 器 和 with 语句 的 作用 。 很 快 我 们 就 知道 ， 除 了 自动 关闭 打 
开 的 文件 之 外 ，with 语句 还 有 很 多 用 途 。 我 们 自己 动手 实现 了 一 个 上 下 文 管理 器 È 
有 _ enter_/_ exit 方法 的 LookingGlass 类 ， 说 明了 如 何在 exit 方法 中 处 理 异常 。 
Raymond Hettinger 在 PyCon US 2013 上 所 做 的 主题 演讲 传达 了 一 个 重要 的 观点 : with 不 
仅 能 管理 资源 ， 还 能 用 于 去 掉 常 规 的 设置 和 清理 代码 ， 或 者 在 另 一 个 过 程 前 后 执行 的 操 
作 (“What Makes Python Awesome?”， 第 21 张 幻 灯 片 ，https://speakerdeck.com/pyconslides/ 


pycon-keynote-python-is-awesome-by-raymond-hettinger?slide=21 )。 


最 后 ， 我 们 分 析 了 标准 库 中 contextlib 模块 里 的 函数 。 其 中 ，@contextmanager 装饰 器 能 
把 包含 一 个 yield 语句 的 简单 生成 器 变 成 上 下 文 管理 器 一 一 这 比 定义 一 个 至 少 包含 两 个 方 
法 的 类 要 更 简洁 。 我 们 使 用 Looking_glass 生成 器 函数 实现 了 LookingGlass 类 ， 还 讨论 了 
使 用 @contextmanager 时 如 何 处 理 异 常 。 


@contextmanager 装饰 器 优雅 且 实 用 ， 把 三 个 不 同 的 Python 特性 结合 到 了 一 起 : 函数 装饰 
器 、 生 成 器 和 with 语句 。 


15.6 延伸 阅读 


Python 语言 参考 手册 中 的 “8. Compound statements” 一 章 (https://docs.python.org/3/reference/ 
compound_stmts.html) 全 面 说 明了 if, for, while 和 try 语句 的 else 子 句 。 关 于 try/except 
语句 (A else T, MAYA) 是 否 符合 Python 风格 ，Raymond Hettinger 在 Stack Overflow 
中 对 “Is it a good practice to use try-except-else in Python?” 这 一 问题 (http://stackoverflow.com/ 
questions/16138232/is-it-a-good-practice-to-use-try-except-else-in-python) 做 了 精彩 的 回答 。 
在 Alex Martelli “SAY «Python 技术 手册 (第 2 版 )》 一 书 中 ， 有 一 章 是 关于 异常 的 ， 那 一 
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章 极 好 地 讨论 了 EARP 风格 。Alex 认为 “取得 原谅 比 获得 许可 容易 ”是 由 计算 领域 的 先驱 
Grace Hopper 首先 提出 的 。 


在 Python 标准 库 文档 中 ,，“4. Built-in Types” 一 章 中 有 一 节 专 门 说 明了 上 下 文 管理 器 的 类 型 
(https://docs.python.org/3/library/stdtypes.html#typecontextmanager)。Python 语言 参考 手册 中 还 
有 _ enter_/_exit “两 个 特殊 方法 的 文档 ， 在 “3.3.8. With Statement Context Managers” — 
节 中 (https://docs.python.org/3/reference/datamodel.html#with-statement-context-managers), E F 
文 管理 器 在 “PEP 343—The ‘with’ Statement” (https://www.python.org/dev/peps/pep-0343/) 
中 引入 。 这 份 PEP 不 易 读 懂 ， 因 为 大 量 篇 幅 都 在 讲 极端 情况 ， 以 及 反对 其 他 提案 。 这 就 是 
PEP 的 特点 。 


在 PyCon US 2013 的 主题 演讲 中 ，Raymond Hettinger 强调 ，with 语句 是 “这 门 语言 的 一 项 迷 
人 特性 ”。 在 这 次 大 会 上 的 “Transforming Code into Beautiful, Idiomatic Python” 演 讲 中 (https:// 
speakerdeck.com/pyconslides/transforming-code-into-beautiful-idiomatic-python-by-raymond-hettinger- 
1l?slide=34)， 他 还 展示 了 上 下 文 管理 器 的 几 个 有 趣 应 用 。 


Jeff Preshing 写 的 一 篇 博客 文章 很 有 趣 ， 题 为 “The Python with Statement by Example” (http:// 
preshing.com/20110920/the-python-with-statement-by-example/) ， 他 举例 说 明了 pycairo 图 形 库 
中 的 上 下 文 管理 器 。 


Beazley 与 Jones 在 他 们 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 中 ， 发 明了 上 下 文 
管理 器 的 独特 用 途 。"8.3 让 对 象 支持 上 下 文 管理 协议 ”一 市 实现 了 一 个 LazyConnection 
类 ， 它 的 实例 是 上 下 文 管理 器 ， 在 with 块 中 能 自动 打开 和 关闭 网 络 连接 。“9.22 以 简单 的 
方式 定义 上 下 文 管理 器 ”一 市 编写 了 一 个 用 于 统计 代码 运行 时 间 的 上 下 文 管理 器 ， 还 编写 
了 一 个 使 用 事务 修改 list 对 象 的 上 下 文 管理 器 : 在 with 块 中 创建 list 实例 的 副本 ， 所 有 
改动 都 针对 那个 副本 ， 仅 当 with 块 没有 抛 出 异常 ， 正 常 执行 完毕 之 后 ， 才 用 副本 赫 代 原来 
的 列表 。 这 样 做 简单 又 巧妙 。 

















































































































取出 面包 


在 PyCon US 2013 的 主题 演讲 “What Makes Python Awesome” 中 (http://pyvideo.org/ 
video/1669/keynote-3), Raymond Hettinger 说 他 第 一 次 看 到 with 语句 的 提案 时 ， 觉 得 
“AL PU EEE”, FORA AEM RMR, PEP 通常 难以 阅读 ，PEP 343 尤其 如 此 。 


然后 ，Hettinger 告诉 我 们 ， 他 认识 到 在 计算 机 语言 的 发 展 历程 中 ， 子 程序 是 最 重要 的 
发 明 。 如 果 有 一 系列 操作 ， 如 A-B-C 和 了 P-B-Q， 那 么 可 以 把 B 拿 出 来 ， 变 成 子 程序 。 
这 就 好 比 把 三 明治 的 馅 儿 取出 来 ， 这 样 我 们 就 能 使 用 金枪鱼 搭配 不 同 的 面包 。 可 是 ， 
如 果 我 们 想 把 面包 取出 来 ,使 用 小 麦 面包 夹 不 同 的 馅 儿 呢 ?这 就 是 with 语句 实现 的 功 
能 。with 语句 是 子 程序 的 补充 。Hettinger 接着 说 道 : 
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with 语句 是 非常 了 不 起 的 特性 。 我 建议 你 在 实践 中 深 挖 这 个 特性 的 用 途 。 使 用 
with 语句 或 许 能 做 意义 深远 的 事情 。with 语 揣 最 好 的 用 法 还 未 被 发 据 出 来 。 我 
预料 ， 如 果 有 好 的 用 法 ， 其 他 语言 以 及 未 来 的 语言 会 借鉴 这 个 特性 。 或 许 ， 你 
正在 参与 的 事情 几乎 与 子 程序 的 发 明 一 样 意义 深远 。 

Hettinger Rik, wA k I with 语 向 的 作用 。 尽 管 如 此 ，with 语句 仍 是 一 个 十 分 有 用 的 

特性 。 他 用 三 明治 类 比 ， 道 出 with 语 身 是 子 程 序 的 补充 ; 那 一 刻 ， 我 的 脑海 中 浮现 了 

许多 可 能 性 。 

如 果 你 想 让 任何 人 信服 Python 是 出 色 的 语言 ， 一 定 要 观看 Hettinger 的 主题 演讲 。 关 

于 上 下 文 管理 器 的 部 分 从 23:00 开始 ， 到 26:15 结束 。 不 过 ， 整 个 主题 演讲 都 很 精彩 。 
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如 果 Python 书籍 有 一 定 的 指导 作用 ， 那 么 〈 协 程 就 是 ) 
Python 特性 ， 因 此 表面 上 看 是 最 无 用 的 特性 。 








协 程 


文档 最 匮乏 、 最 鲜 为 人 知 的 





David Beazley 
Python 图 书 作者 


字典 为 动词 “to yield” 给 出 了 两 个 释义 : 产 出 和 让 步 。 对 于 Python 生成 器 中 的 yield 来 
说 ， 这 两 个 含义 都 成 立 。yield item 这 行 代码 会 产 出 一 个 值 ， 提 供给 next(...) 的 调用 方 ; 
此 外 ， 还 会 作出 让 步 ， 暂 停 执行 生成 器 ， 让 调用 方 继续 工作 ， 直 到 需要 使 用 另 一 个 值 时 再 


调用 next()。 调 用 方 会 从 生成 器 中 拉 取 值 。 


从 句法 上 看 ， 协 程 与 生成 器 类 似 ， 都 是 定义 体 中 包含 yield 关键 字 的 函数 。 可 是 ， 在 协 程 


























HH, yield 通常 出 现在 表达 式 的 右边 (例如 ，datum = yieLd) ， 可 以 产 出 值 ， 也 可 以 不 产 
出 一 一 如 果 yield 关键 字 后 面 没 有 表达 式 ， 那 么 生成 器 产 出 None。 协 程 可 能 会 从 调用 方 接 
收 数据 ， 不 过 调用 方 把 数据 提供 给 协 程 使 用 的 是 .send(datum) 方法 ， 而 不 是 next(...) PÁ 
































数 。 通 常 ， 调 用 方 会 把 值 推 送 给 协 程 。 








yield 关键 字 甚 至 还 可 以 不 接收 或 传 出 数据 。 不 管 数据 如 何 流 动 ，yietd 都 是 一 种 流程 控制 
工具 ， 使 用 它 可 以 实现 协作 式 多 任务 : 协 程 可 以 把 控制 如 让 步 给 中 心 调度 程序 ， 从 而 激活 





其 他 的 协 程 。 

















从 根本 上 把 yield 视 作 控制 流程 的 方式 ， 这 样 就 好 理解 协 程 了 。 








本 书 前 面 介绍 的 生成 器 函数 作用 不 大 ， 但 是 进行 一 系列 功能 改进 之 后 ， 得 到 了 Python 协 





程 。 了 解 Python 协 程 的 进化 过 程 有 助 于 理解 各 个 阶段 改进 




















的 功能 和 复杂 度 。 


本 章 首 先 要 简单 介绍 生成 器 如 何 变 成 协 程 ， 然 后 再 进入 核心 内 容 。 本 章 涵盖 以 下 话题 : 
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。 生成 器 作为 协 程 使 用 时 的 行为 和 状态 

。 使 用 装饰 器 自动 预 激 协 程 

。 调用 方 如 何 使 用 生成 器 对 象 的 .close() 和 .throw(...) 方法 控制 协 程 
。 协 程 终止 时 如 何 返 回 值 

。 yield from 新 句法 的 用 途 和 语义 

。 使 用 案例 一 一 使 用 协 程 管理 仿真 系统 中 的 并 发 活动 


16.1 生成 器 如 何 进化 成 协 程 


协 程 的 底层 架构 在 “PEP 342—Coroutines via Enhanced Generators” (https://www.python. 

org/dev/peps/pep-0342/) 中 定义 ， 并 在 Python 2.5 (2006 年 ) 实现 了 。 自 此 之 后 ，yield 关 

键 字 可 以 在 表达 式 中 使 用 ， 而 且 生 成 器 API 中 增加 了 .send(value) 方法 。 生 成 器 的 调用 方 

可 以 使 用 .send(.….) 方法 发 送 数据 ， 发 送 的 数据 会 成 为 生成 器 函数 中 yield 表达 式 的 值 。 

因此 ， 生 成 器 可 以 作为 协 程 使 用 。 协 程 是 指 一 个 过 程 ， 这 个 过 程 与 调用 方 协作 ， 产 出 由 i 

用 方 提供 的 值 。 

除了 .send(.….) 方 法 ，PEP 342 还 添加 了 .throw(...) 和 .close() 方 法 : 前 者 的 作用 是 让 

调用 方 抛 出 异常 ， 在 生成 器 中 处 理 ， 后 者 的 作用 是 终止 生成 器 。 下 一 市 和 16.5 市 会 说 明 这 

些 方法 。 

协 程 最 近 的 演进 来 自 Python 3.3 (2012 年 ) 实现 的 “PEP 380 一 Syntax for Delegating to a 

Subgenerator”(https://www.python.org/dev/peps/pep-0380/)。PEP 380 对 生成 器 函数 的 句法 

做 了 两 处 改动 ， 以 便 更 好 地 作为 协 程 使 用 。 

。 现在 ， 生 成 器 可 以 返回 一 个 值 ， 以前， 如 果 在 生成 器 中 给 return 语句 提供 值 ， 会 抛 出 
SyntaxError 异常 。 

e 新 引入 了 yield from 句法 ,使 用 它 可 以 把 复杂 的 生成 器 重 构 成 小 型 的 风 套 生成 器 ， 省 
去 了 之 前 把 生成 器 的 工作 委托 给 子 生 成 器 所 需 的 大 量 样板 代码 。 


这 两 个 最 新 的 改动 分 别 在 16.6 节 和 16.7 节 讨 论 。 
按照 本 书 的 惯例 ， 我 们 先 从 基本 概念 和 示例 入 手 ， 然 后 再 深入 越 来 越 难以 理解 的 特性 。 


16.2 用 作协 程 的 生成 器 的 基本 行为 
示例 16-1 展示 了 协 程 的 行为 。 
示例 16-1 可 能 是 协 程 最 简单 的 使 用 演示 


>>> def simple_coroutine(): #@ 
print('-> coroutine started') 
x = yield #@ 
print('-> coroutine received:', x) 
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>>> my_coro = simple_coroutine() 
>>> my_coro # © 
<generator object simple_coroutine at 0x100c2be10> 
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>>> next(my_coro) #@ 

-> coroutine started 

>>> my_coro.send(42) # @ 

-> coroutine received: 42 

Traceback (most recent call last): # O 


StopIteration 


O 协 程 使 用 生成 器 函数 定义 : 定义 体 中 有 yield REF. 

O yield 在 表达 式 中 使 用 ， 如 果 协 程 只 需 从 客户 那里 接收 数据 ， 那 么 产 出 的 值 是 None 
这 个 值 是 隐 式 指定 的 ， 因 为 yield 关键 字 右 边 没有 表达 式 .。 

O 与 创建 生成 器 的 方式 一 样 ， 调 用 函数 得 到 生成 器 对 象 。 

@ 首先 要 调用 next(...) 函数 ， 因 为 生成 器 还 没 启动 ， 没 在 yield 语句 处 暂停 ， 所 以 一 开 
始 无 法 发 送 数 据 。 

@ 调用 这 个 方法 后 ， 协 程 定义 体 中 的 yield 表达 式 会 计算 出 42; 现在 ， 协 程 会 恢复 ， 一 
直 运 行 到 下 一 个 yield 表达 式 ， 或 者 终止。 

@ 这 里 ， 控 制 权 流动 到 协 程 定义 体 的 末尾 ， 导 致 生成 器 像 往 常 一 样 抛 出 StopIteration 异常 。 


协 程 可 以 身 处 四 个 状态 中 的 一 个 。 当 前 状态 可 以 使 用 inspect.getgeneratorstate(...) K 
数 确定 ， 该 函数 会 返回 下 述 字 符 串 中 的 一 个 。 
'GEN_CREATED' 
等 待 开 始 执行 。 
"GEN_RUNNING' 
解释 器 正在 执行 。， 
'GEN_SUSPENDED， 
在 yield 表达 式 处 暂停 。 
'GEN_CLOSED， 
执行 结束 。 


因为 send 方法 的 参数 会 成 为 暂停 的 yield 表达 式 的 值 ， 所 以 ， 仅 当 协 程 处 于 暂停 状态 时 才 
能 调用 send 方法 ， 例 如 my_coro.send(42)。 不 过 ， 如 果 协 程 还 没 激活 ( 即 ， 状 态 是 'GEN_ 
CREATED'), ， 情 况 就 不 同 了 。 因 此 ， 始 终 要 调用 next(my_coro) 激活 协 程 也 可 以 调用 
my_coro.send(None)， 效 果 一 样 。 


如 果 创 建 协 程 对 象 后 立即 把 None 之 外 的 值 发 给 它 ， 会 出 现下 述 错误 : 


>>> my_coro = simple_coroutine() 
>>> my_coro.send(1729) 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
TypeError: can't send non-None value to a just-started generator 




























































































HE 1: 只 有 在 多 线程 应 用 中 才能 看 到 这 个 状态 。 此 外 ， 生 成 器 对 象 在 自己 身上 调用 getgeneratorstate 函数 
也 行 ， 不 过 这 样 做 没什么 用 。 
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注意 错误 消息 ， 它 表述 得 相当 清楚 。 
最 先 调用 next(my_coro) 函数 这 一 步 通常 称 为 “ 预 激 ”(prime) 协 程 ( 即 ， 让 协 程 向 前 执 
行 到 第 一 个 yield 表达 式 ， 准 备 好 作为 活跃 的 协 程 使 用 


下 面 举 个 产 出 多 个 值 的 例子 ， 以 便 更 好 地 理解 协 程 的 行为 ， 如 示例 16-2 所 示 。 
示例 16-2 产 出 两 个 值 的 协 程 


>>> def simple_coro2(a): 
print('-> Started: a =', a) 
b = yield a 
print('-> Received: b =', b) 
c = yield a+b 
print('-> Received: c =', c) 








We 





o 


























>>> my_coro2 = simple_coro2(14) 

>>> from inspect import getgeneratorstate 

>>> getgeneratorstate(my_coro2) @ 

"GEN_CREATED' 

>>> next(my_coro2) @ 

-> Started: a = 14 

14 

>>> getgeneratorstate(my_coro2) © 

"GEN_SUSPENDED ' 

>>> my_coro2.send(28) @ 

-> Received: b = 28 

42 

>>> my_coro2.send(99) @ 

-> Received: c = 99 

Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 

StopIteration 

>>> getgeneratorstate(my_coro2) O 

"GEN_CLOSED' 


@ inspect.getgeneratorstate 图 数 指明 ， 处 于 GEN_CREATED 状态 ( 即 协 程 未 启动 )。 

O 向 前 执行 协 程 到 第 一 个 yield 表达 式 ， 打 印 -> Started: a = 14 消息 ， 然 后 产 出 a 的 
值 ， 并 且 暂 停 ， 等 待 为 b 赋值 。 

© getgeneratorstate 国 数 指明 ， 处 于 GEN_SUSPENDED 状态 ( 即 协 程 在 yield 表达 式 处 暂停 ) 。 

O 把 数字 28 发 给 暂停 的 协 程 ， 计算 yield 表达 式 ， 得 到 28， 然 后 把 那个 数 绑 定 给 b。 打 
印 -> Received: b = 28 消息 ， 产 出 a + b 的 值 (42) ， 然 后 协 程 暂停 ， 等 待 为 < 赋值 。 

O 把 数字 99 发 给 暂停 的 协 程 ， 计 算 yield 表达 式 ， 得 到 99， 然 后 把 那个 数 绑 定 给 c。 打 印 
-> Received: c = 99 消息 ， 然 后 协 程 终止 ， 导 致 生成 器 对 象 抛 出 StopIteration 异常 。 

Q getgeneratorstate 函数 指明 ， 处 于 GEN_CLOSED 状态 〈 即 协 程 执行 结束 )。 

关键 的 一 点 是 ， 协 程 在 yield 关键 字 所 在 的 位 置 暂停 执行 。 前 面 说 过 ， 在 赋值 语句 中 ，= 

右边 的 代码 在 赋值 之 前 执行 。 因 此 ， 对 于 b = yield a 这 行 代码 来 说 ， 等 到 客户 端 代码 再 

激活 协 程 时 才 会 设 定 b 的 值 。 这 种 行为 要 花 点 时 间 才 能 习惯 ， 不 过 一 定 要 理解 ， 这 样 才 能 

弄 懂 异步 编程 中 yield 的 作用 (后 文 探讨 )。 

simple_coro2 协 程 的 执行 过 程 分 为 3 个 阶段 ， 如 图 16-1 所 示 。 
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(1) 调用 next(my_coro2)， 打 印 第 一 个 消息 ， 然 后 执行 yield a， 产 出 数字 14, 

(2) 调用 my_coro2.send(28)， 把 28 赋值 给 b， 打印 第 二 个 消息 ， 然后 执行 yield a + b， 产 
出 数字 42。 

(3) 调 用 my_coro2.send(99), 4E 99 赋值 给 <， 打印 第 三 个 消息 ， 协 程 终 止 。 








>>> my_coro2 = simple_coro2(14) 


def simple_coro2(a): | >>> next(my_coro2) 


print('-> Started: a =', a) @ -> Started: a = 14 
b =|yield a JS as eee as eae 
print('-> Received: b =', b) >>> my_coro2.send(28) 






c =|yield a + b @ -> Received: b = 28 
print('-> Received: c =', c) | 42 O Ťű á LL LLL LLL LLL LLL LLL. 


>>> my_coro2.send(99) 
@ -> Received: c = 99 


File "<stdin>", line 1, in <module> 
StopIteration 











16-1: 执行 simple_coro2 协 程 的 3 个 阶段 (注意 ,各 个 阶段 都 在 ia 式 中 结束 ， 而 且 下 一 
个 阶段 都 从 那 一 行 代码 开始 ， 然 后 再 把 yield 表达 式 的 值 赋 给 变量 








7 





下 面 来 看 一 个 稍微 复杂 的 协 程 示例 。 


16.3 示例 : 使 用 协 程 计算 移动 平均 值 


第 7 章 讨论 闭 包 时 ， 我 们 分 析 了 如 何 使 用 对 象 计 算 移动 平均 值 ， 示例 7-8 定义 的 是 一 个 
简单 的 类 ， 示例 7-14 定义 的 是 一 个 高 阶 函数 ， 用 于 生成 一 个 闭 包 ， 在 多 次 调用 之 问 跟 路 
total 和 count 变量 的 值 。 示 例 16-3 展示 如 何 使 用 协 程 实现 相同 的 功能 。 


示例 16-3 coroaverager0.py: 定义 一 个 计算 移动 平均 值 的 协 程 
def averager(): 
total = 0.0 
count = 0 
average = None 
while True: @ 
term = yield average @ 
total += term 
count += 1 
average = total/count 


@ 这 个 无 限 循环 表明 ， 只 要 调用 方 不 断 把 值 发 给 这 个 协 程 ， 它 就 会 一 直接 收 值 ， 然 后 生成 
结果 。 仅 当 调用 方 在 协 程 上 调用 .Close() 方法 ,或 者 没有 对 协 程 的 引用 而 被 垃圾 回收 
程序 回收 时 ， 这 个 协 程 才 会 终止 






























































注 2: 这 个 示例 的 灵感 来 自 Jacob Holm 在 Python-ideas 邮件 列表 中 发 布 的 一 个 代码 片段 ， 他 发 布 的 消息 题 
为 “Yield-From: Finalization guarantees” (https://mail.python.org/pipermail/python-ideas/2009-April/003841. 
html) 。 在 那个 消息 的 后 续 回 复 中 ， 那 段 代 码 有 几 个 变 体 。Holm 在 003912 号 消息 (https://mail.python. 
org/pipermail/python-ideas/2009-April/003912.html) 中 进一步 说 明了 自己 的 想法 。 
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O 这 里 的 yield 表达 式 用 于 暂停 执行 协 程 ， 把 结果 发 给 调用 方 ， 还 用 于 接收 调用 方 后 面 发 
给 协 程 的 值 ， 恢 复 无 限 循 环 。 


使 用 协 程 的 好 处 是 ，total 和 count 声明 为 局 部 变量 即 可 ， 无 需 使 用 实例 属性 或 闲 包 在 多 
次 调用 之 间 保 持 上 下 文 。 示 例 16-4 是 使 用 averager 协 程 的 doctest。 


示例 16-4 coroaverager0.py: 示例 16-3 中 定义 的 移动 平均 值 协 程 的 doctest 
>>> coro_avg = averager() @ 
>>> next(coro_avg) @ 
>>> coro_avg.send(10) © 
10.0 
>>> coro_avg.send(30) 
20.0 
>>> coro_avg.send(5) 
15.0 


O 创建 协 程 对 象 。 
© 调用 next 函数 ， 预 激 协 程 。 
O 计算 移动 平均 值 : 多 次 调用 .send(.….) 方 法 ， 产 出 当前 的 平均 值 。 


在 上 述 doctest 中 (示例 16-4), ， 调 用 next(coro_avg) 函数 后 ， 协 程 会 向 前 执行 到 yield 表 
达 式 ， 产 出 average 变量 的 初始 值 一 一 None， 因 此 不 会 出 现在 控制 台中 。 此 时 ， 协 程 在 
yield 表达 式 处 暂停 ， 等 到 调用 方 发 送 值 。coro_avg.send(19) 那 一 行 发 送 一 个 值 ， 激 活 
协 程 ， 把 发 送 的 值 赋 给 term， 并 更 新 total, count 和 average 三 个 变量 的 值 ， 然 后 开始 
while 循环 的 下 一 次 迭代 ， 产 出 average 变量 的 值 ， 等 待 下 一 次 为 term 变量 赋值 。 

细心 的 读者 可 能 迫切 地 想 知道 如 何 终止 执行 averager 实例 (4n coro_avg) ， 因 为 定义 体 中 
有 个 无 限 循环 。16.5 市 会 讨论 这 个 话题 。 

讨论 如 何 终止 协 程 之 前 ， 我 们 要 先 谈 谈 如 何 启 动 协 程 。 使 用 协 程 之 前 必须 预 激 ， 可 是 这 一 
步 容易 忘记 。 为 了 避免 忘记 ， 可 以 在 协 程 上 使 用 一 个 特殊 的 装饰 器 。 接 下 来 介绍 这 样 一 个 
装饰 器 。 


16.4 ” 预 激 协 程 的 装饰 器 


如 果 不 预 激 ， 那 么 协 程 没什么 用 。 调 用 my_coro.send(x) 之 前 ， 记 住 一 定 要 调用 next(my_ 
coro)。 为 了 简化 协 程 的 用 法 ， 有 时 会 使 用 一 个 预 激 装 饰 器 。 示 例 16-5 中 的 coroutine 装 
饰 器 是 一 例 。” 


示例 16-5 coroutil.py: 预 激 协 程 的 装饰 器 


from functools import wraps 













































































def coroutine(func): 





注 3: 网 上 有 多 个 类 似 的 装饰 器 。 这 个 改 自 ActiveState 中 的 一 个 诀窍 “Pipeline made of coroutines” (http:/ 
code.activestate.com/recipes/578265-pipeline-made-of-coroutines/), ， 作 者 是 Chaobin Tang， 而 他 是 受到 了 
David Beazley 的 启发 。 
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""" 装 饰 器 ;向 前 执行 到 第 一 个 "ytetd` 表 达 式 , 预 激 'func """ 
@wraps(func) 
def primer(*args,**kwargs): © 
gen = func(*args,**kwargs) @ 
next(gen) © 
return gen @ 
return primer 


O 把 被 装饰 的 生成 器 函数 替换 成 这 里 的 primer 函数 ， 调 用 primer 函数 时 ， 返 回 预 激 后 的 
生成 器 。 

© 调用 被 装饰 的 函数 ， 获 取 生 成 器 对 象 。 

O THERE. 

O 返回 生成 器 。 

示例 16-6 展示 @coroutine 装饰 器 的 用 法 。 请 与 示例 16-3 对 比 。 


示例 16-6 coroaveragerl.py: 使 用 示例 16-5 中 定义 的 @coroutine 装饰 器 定义 并 测试 计算 
移动 平均 值 的 协 程 





用 于 计算 移动 平均 值 的 协 程 





>>> coro_avg = averager() @ 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(coro_avg) @ 
"GEN_SUSPENDED ' 

>>> coro_avg.send(10) © 

10.0 

>>> coro_avg.send(30) 

20.0 

>>> coro_avg.send(5) 

15.0 


from coroutil import coroutine @ 


@coroutine @ 
def averager(): QO 
total = 0.0 
count = 0 
average = None 
while True: 
term = yield average 
total += term 
count += 1 
average = total/count 


© 调用 averager() 函数 创建 一 个 生成 器 对 象 ， 在 coroutine 装饰 器 的 primer 国 数 中 已 经 
预 激 了 这 个 生成 器 。 

@ getgeneratorstate 国 数 指明 ， 处 于 GEN_SUSPENDED 状态 ， 因 此 这 个 协 程 已 经 准备 好 ， 可 
以 接收 值 了 。 
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© 可 以 立即 开始 把 值 发 给 coro_avg 一 一 这 正 是 coroutine 装饰 器 的 目的 。 

@ 导入 coroutine 装饰 器 。 

O 把 装饰 器 应 用 到 averager 函数 上 。 

@ 函数 的 定义 体 与 示例 16-3 完全 一 样 。 

很 多 框架 都 提供 了 处 理 协 程 的 特殊 装饰 器 ， 不 过 不 是 所 有 装饰 器 都 用 于 预 激 协 程 ， 有 些 会 
提供 其 他 服务 ， 例 如 勾 入 事件 循环 。 比 如 说 ， 异 步 网 络 库 Tornado 提供 了 tornado.gen 装 
饰 器 (http://tornado.readthedocs.org/en/latest/gen.html) 。 


fi FA yield from 句法 (参见 16.7 节 ) 调用 协 程 时 ， 会 自动 预 激 ， 因 此 与 示例 16-5 中 的 
@coroutine 等 装饰 器 不 兼容 。Python 3.4 标准 库 里 的 asyncio.coroutine 装饰 器 (第 18 章 
介绍 ) 不 会 预 激 协 程 ， 因 此 能 兼容 yield from 句法 。 


接 下 来 探讨 协 程 的 重要 特性 一 一 用 于 终止 协 程 ， 以 及 在 协 程 中 抛 出 异常 的 方法 。 


16.5 ”终止 协 程 和 异常 处 理 


协 程 中 未 处 理 的 异常 会 向 上 冒 泡 ， 传 给 next 函数 或 send 方法 的 调用 方 〈 即 触发 协 程 的 对 
象 )。 示 例 16-7 举例 说 明 如 何 使 用 示例 16-6 中 由 装饰 器 定义 的 averager 协 程 。 


示例 16-7 未 处 理 的 异常 会 导致 协 程 终止 
>>> from coroaverager1 import averager 
>>> coro_avg = averager() 
>>> coro_avg.send(40) #@ 
40.0 
>>> coro_avg.send(50) 
45.0 
>>> coro_avg.send('spam') #@ 
Traceback (most recent call last): 



















































































TypeError: unsupported operand type(s) for +=: 'float' and 'str' 
>>> coro_avg.send(60) # © 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
StopIteration 


O 使 用 ecoroutine 装饰 器 装饰 的 averager 协 程 ， 可 以 立即 开始 发 送 值 。 

O 发 送 的 值 不 是 数字 ， 导 致 协 程 内 部 有 异常 抛 出 。 

O 由 于 在 协 程 内 没有 处 理 异 常 ， 协 程 会 终止 。 如 果 试 图 重新 激活 协 程 ， 会 抛 出 
StopIteration 异常 。 

出 错 的 原因 是 ， 发 送 给 协 程 的 'spam' 值 不 能 加 到 total 变量 上 。 

示例 16-7 暗示 了 终止 协 程 的 一 种 方式 : 发 送 某 个 哨 符 值 ， 让 协 程 人 退出。 内置 的 None 和 

Ellipsis 等 常量 经 常用 作 哨 符 值 。ELLipsis 的 优点 是 ， 数 据 流 中 不 太 常 有 这 个 值 。 我 还 见 

过 有 人 把 StopIteration 类 (类 本 身 ， 而 不 是 实例 ， 也 不 抛 出 ) 作为 哨 符 值 ， 也 就 是 说 ， 

是 像 这 样 使 用 的 : my_coro.send(StopIteration)。 


从 Python 2.5 开始 ， 客 户 代码 可 以 在 生成 器 对 象 上 调用 两 个 方法 ， 显 式 地 把 异常 发 给 协 程 。 
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这 两 个 方法 是 throw 和 close, 

generator.throw(exc_type[, exc_value[, traceback]]) 
致使 生成 器 在 暂停 的 yield 表达 式 处 抛 出 指定 的 异常 。 如 果 生 成 器 处 理 了 抛 出 的 异常 ， 
代码 会 向 前 执行 到 下 一 个 yield 表达 式 ， 而 产 出 的 值 会 成 为 调用 generator.throw 方法 
得 到 的 返回 值 。 如 果 生 成 器 没有 处 理 抛 出 的 异常 ， 异 常会 铝 上 冒 泡 ， 传 到 调用 方 的 上 下 
文中 。 

generator .close() 
致使 生成 器 在 暂停 的 yield 表达 式 处 抛 出 GeneratorExit 异常 。 如 果 生 成 器 没有 处 
理 这 个 异常 ， 或 者 抛 出 了 StopIteration 异常 (通常 是 指 运 行 到 结尾 )， 调 用 方 不 会 
报错 。 如 果 收 到 GeneratorExit 异常 ， 生 成 器 一 定 不 能 产 出 值 ， 否 则 解释 器 会 抛 出 
RuntimeError 异常 。 生 成 器 抛 出 的 其 他 异常 会 向 上 冒 泡 ， 传 给 调用 方 。 


生成 器 对 象 方法 的 官方 文档 深 藏 在 Python 语言 参考 手册 中 ， 参 见 “6.2.9.1. 


Generator-iterator methods” (https://docs.python.org/3/reference/expressions. 
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下 面 举例 说 明 如 何 使 用 close 和 throw 方法 控制 协 程 。 示 例 16-8 列 出 的 是 接 下 来 的 例子 使 
用 的 demo_exc_handling PÁX. 








示例 16-8 coro_exc_demo.py: 学 习 在 协 程 中 处 理 异 常 的 测试 代码 
class DemoException(Exception): 


""" 为 这 次 演示 定义 的 异常 类 型 。""" 


def demo_exc_handling(): 
print('-> coroutine started') 


while True: 
try: 
x = yield 
except DemoException: @ 
print('*** DemoException handled. Continuing...') 
else: @ 


print('-> coroutine received: {!r}'.format(x)) 
raise RuntimeError('This line should never run.') 


O 特别 处 理 DemoException 异常 。 

O 如 果 没 有 异常 ， 那 么 显示 接收 到 的 值 。 

这 一 行 永远 不 会 执行 。 

示例 16-8 中 的 最 后 一 行 代码 不 会 执行 ， 因 为 只 有 未 处 理 的 异常 才 会 中 止 那个 无 限 循环 ， 而 
一 旦 出 现 未 处 理 的 异常 ， 协 程 会 立即 终止。 

demo_exc_handling 函数 的 常规 用 法 如 示例 16-9 所 示 。 
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示例 16-9 


如 果 把 DemoException 异常 传 入 demo_exc_handling 协 程 ， 


-> coroutine 
>>> exc_coro 
-> coroutine 
>>> exc_coro 
-> coroutine 


>>> exc_coro. 


coro) 
started 


.send(11) 
received: 

.send(22) 
received: 


close() 


11 


22 


激活 和 关闭 demo_exc_handling， 没 有 异常 
>>> exc_coro = demo_exc_handling() 
>>> next(exc_ 


>>> from inspect import getgeneratorstate 


>>> getgeneratorstate(exc_coro) 


"GEN_CLOSED' 


例 16-10 所 示 。 


示例 16-10 ”把 DemoException 异常 传 入 demo_exc_handling 不 会 导致 协 程 中 目 


示例 16-11 


>>> exc_coro = demo_exc_handling() 
>>> next(exc_ 


-> coroutine 


>>> exc_coro. 
-> coroutine received: 
>>> exc_coro. throw(DemoException) 


coro) 
started 
send(11) 


11 


*** DemoException handled. Continuing... 


>>> getgeneratorstate(exc_coro) 


"GEN_SUSPENDED' 


但 是 ， 如 果 传 入 协 程 的 异常 没有 处 理 ， 协 程 会 停止 ， 即 状态 变 成 'GEN_CLOSED'。 示 例 
16-11 演示 了 这 种 情况 。 

















-> coroutine 


>>> exc_coro. 
-> coroutine received: 


如 采 无 法 处 到 





coro) 
started 
send(11) 


E 传 入 的 异常 ， 协 程 
>>> exc_coro = demo_exc_handling() 
>>> next(exc_ 


11 


En 


>>> exc_coro.throw(ZeroDivisionError) 


Traceback (most recent call last): 


ZeroDivisionError 


>>> getgeneratorstate(exc_coro) 


"GEN_CLOSED' 





JÈ 


ECAH 





如 果 不 管 协 程 如 何 结束 都 想 做 些 清理 工作 ， 要 把 协 程 定义 体 中 相关 的 代码 放 入 try/ 
finally 块 中 ， 如 示例 16-12。 


示例 16-12 coro_finally_demo.py: 使 用 try/finally 块 在 协 程 终止 时 执行 操作 


class DemoException(Exception): 


""" 为 这 次 演示 定义 的 异常 类 型 。""" 


def demo_finally(): 





print('-> coroutine started') 


try: 
while True: 
try: 
x = yield 
except DemoException: 
print('*** DemoException handled. Continuing...') 
else: 
print('-> coroutine received: {!r}'.format(x)) 
finally: 


print('-> coroutine ending') 


Python 3.3 引入 yield from EZRA Z SiR EAE. ATA 
因 是 让 协 程 更 方便 地 返回 值 。 请 继续 往 下 读 ， 了 解 详情 。 


16.6 ”让 协 程 返回 值 


示例 16-13 是 averager 协 程 的 不 同 版 本 ， 这 一 版 会 返回 结果 。 为 了 说 明 如 何 返 回 值 ， 每 次 
激活 协 程 时 不 会 产 出 移动 平均 值 。 这 么 做 是 为 了 强调 某 些 协 程 不 会 产 出 值 ， 而 是 在 最 后 返 
回 一 个 值 (通常 是 某 种 累计 值 )。 
示例 16-13 中 的 averager 协 程 返 回 的 结果 是 一 个 namedtupte， 两 个 字段 分 别 是 项 数 
(count) 和 平均 值 (average)。 我 本 可 以 只 返回 平均 值 ， 但 是 返回 一 个 元 组 可 以 获得 累积 
数据 的 另 一 个 重要 信息 一 一 项 数 。 


示例 16-13 coroaverager2.py: 定义 一 个 求 平 均值 的 协 程 ， 让 它 返回 一 个 结果 


from collections import namedtuple 



























































Result = namedtuple('Result', ‘count average') 


def averager(): 
total = 0.0 
count = 0 
average = None 
while True: 
term = yield 
if term is None: 
break @ 
total += term 
count += 1 
average = total/count 
return Result(count, average) @ 


O 为 了 返回 值 ， 协 程 必须 正常 终止 ， 因此， 这 一 版 averager 中 有 个 条 件 判 断 ， 以 便 退 出 
累计 循环 。 

@ 返回 一 个 namedtuple， 包 含 count 和 average 两 个 字段 。 在 Python 3.3 之 前 ， 如 果 生 成 
器 返回 值 ， 解 释 器 会 报 句 法 错误 。 

下 面 在 控制 台中 说 明 如 何 使 用 新 版 averager ， 如 示例 16-14 所 示 。 


























7 
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示例 16-14 coroaverager2.py: 说 明 averager 行为 的 doctest 
>>> Coro_avg = averager() 
>>> next(coro_avg) 
>>> coro_avg.send(10) @ 
>>> coro_avg.send(30) 
>>> coro_avg.send(6.5) 
>>> coro_avg.send(None) @ 
Traceback (most recent call last): 


StopIteration: Result(count=3, average=15.5) 


O 这 一 版 不 产 出 值 。 
O Riž None 会 终止 循环 ， 导 致 协 程 结束 ， 返 回 结果 。 一 如 既往 ， 生 成 器 对 象 会 抛 出 
StopIteration 异常 。 异 常 对 象 的 value 属性 保存 着 返回 的 值 。 


注意 ，return 表达 式 的 值 会 偷偷 传 给 调用 方 ， 赋 值 给 StopIteration 异常 的 一 个 属性 。 这 样 
做 有 点 不 合 常理 ， 但 是 能 保留 生成 器 对 象 的 常规 行为 一 耗 尽 时 抛 出 StopIteration 异常 。 


示例 16-15 展示 如 何 获取 协 程 返回 的 值 。 


示例 16-15 ”捕获 StopIteration 异常 ， 获 取 averager 返回 的 值 
>>> coro_avg = averager() 
>>> next(coro_avg) 
>>> coro_avg.send(10) 
>>> coro_avg.send(30) 
>>> coro_avg.send(6.5) 
>>> try: 
coro_avg.send(None) 
. except StopIteration as exc: 
result = exc.value 







































































cae result 

Result(count=3, average=15.5) 
获取 协 程 的 返回 值 虽 然 要 绕 个 圈子 ， 但 这 是 PEP 380 定义 的 方式 ， 当 我 们 意识 到 这 一 点 之 
后 就 说 得 通 了 : yield from 结构 会 在 内 部 自动 捕获 StopIteration 异常 。 这 种 处 理 方式 与 
for 循环 处 理 StopIteration 异常 的 方式 一 样 : 循环 机 制 使 用 用 户 易 于 理解 的 方式 处 理 异 
tH Xf yield fron 结构 来 说 ， 解 释 器 不 仅 会 捕获 StopIteration 异常 ， 还 会 把 value 属性 
的 值 变 成 yield from 表达 式 的 值 。 可 惜 ， 我 们 无 法 在 控制 台中 使 用 交互 的 方式 测试 这 种 行 
为 ， 因 为 在 函数 外 部 使 用 yield from (以 及 yield) 会 导致 句法 出 错 。” 


下 一 节 会 举例 说 明 如 何 使 用 yield from 结构 按照 PEP 380 定义 的 方式 获取 averager 协 程 
返回 的 值 。 下 面 讨论 yield fron 结构 。 





































































































注 4: iPython 有 个 扩展 ipython-yf (https://github.com/tecki/ipython-yf) ， 安 装 这 个 扩展 后 可 以 在 iPython 
控制 台中 直接 执行 yield from。 这 个 扩展 用 于 测试 异步 代码 ， 可 以 结合 asyncio 模块 使 用 。 这 个 扩 
展 已 经 提交 为 Python 3.5 的 补丁 ， 但 是 没有 被 接受 。 参 见 Python 缺陷 追踪 系统 中 的 22412 号 工 单 : 
Towards an asyncio-enabled command line (http://bugs.python.org/issue22412) 









































16.7 ”使 用 yield from 


首先 要 知道 ，yield from 是 全 新 的 语言 结构 。 它 的 作用 比 yield 多 很 多 ， 因 此 人 们 认为 继 
续 使 用 那个 关键 字 多 少 会 引起 误解 。 在 其 他 语言 中 ， 类 似 的 结构 使 用 await 关键 字 ， 这 个 
名 称 好 多 了 ， 因 为 它 传达 了 至 关 重 要 的 一 点 : 在 生成 器 gen 中 使 用 yield from subgen() 
时 ，subgen 会 获得 控制 权 ， 把 产 出 的 值 传 给 gen 的 调用 方 ， 即 调用 方 可 以 直接 控制 
subgen。 与 此 同时 ，gen 会 阻塞 ,等 待 subgen ik. ` 


第 14 章 说 过 ，yietd from 可 用 于 简化 for 循环 中 的 yield 表达 式 。 例 如 : 


>>> def gen(): 
A for c in 'AB': 
yield c 
for i in range(1, 3): 
yield i 











ee list(gen()) 
['A', 'B', 1, 2] 


可 以 改写 为 : 


>>> def gen(): 
yield from 'AB' 
yield from range(1, 3) 


ne list(gen()) 
['A', 'B', 1, 2] 


14.10 节 首 次 提 到 yield from 时 举 了 一 个 例子 ， 演 示 这 个 结构 的 用 法 ， 如 示例 16-16 所 示 。 ° 
示例 16-16 ”使 用 yield from 链接 可 迭代 的 对 象 
>>> def chain(*iterables): 


for it in iterables: 
yield from it 





Sss s = 'ABC' 

>>> t = tuple(range(3)) 

>>> list(chain(s, t)) 

['A', 'B', 'C', 0, 1, 2] 
在 Beazley 455 Jones 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 中 ,“4.14 扁平 化 处 理 
符 套 型 的 序列 ”一 节 有 个 稍微 复杂 《不 过 更 有 用 ) yield from 示例 (源码 在 GitHub 
H, https://github.com/dabeaz/python-cookbook/blob/master/src/4/how_to_flatten_a_nested 
sequence/example.py ) 。 


yield from x 表 达 式 对 x 对 象 所 做 的 第 一 件 事 是 ， 调 用 iter(x), ， 从 中 歼 取 迭代 器 。 














>H 








此 ， 














注 5: 写作 本 书 时 ， 有 个 PEP 正在 讨论 中 ， 提 议 增加 await 和 async 关键 字 : PEP 492—Coroutines with async 
and await syntax (https://www.python.org/dev/peps/pep-0492/) 。 
注 6: 示例 16-16 仅 供 教学 使 用 。itertoots 模块 提供 了 优化 版 chain 函数 ， 使 用 C 语言 编写 。 
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x 可 以 是 任何 可 和 迭代 的 对 象 。 


可 是 ， 如 果 yield from 结构 唯一 的 作用 是 在 代 产 出 值 的 嵌 套 for 循环 ， 这 个 结构 很 有 可 
能 不 会 添加 到 Python 语言 中 。yield from ARIAT AS Wt VE FA ACH aa ak ta LAY BTR RT Se i 
HA, meee ORE, MESA at. Kk, 51A yield from 结构 的 PEP 380 才 起 了 
“Syntax for Delegating to a Subgenerator”(“ 把 职责 委托 给 子 生成 器 的 句法 ”) 这 个 标题 。 
yield from 的 主要 功能 是 打开 双向 通道 ， 把 最 外 层 的 调用 方 与 最 内 层 的 子 生 成 器 连接 起 来 ， 
这 样 二 者 可 以 直接 发 送 和 产 出 值 ， 还 可 以 直接 传 和 异常， 而 不 用 在 位 于 中 间 的 协 程 中 添加 
大 量 处 理 异常 的 样板 代码 。 有 了 这 个 结构 ， 协 程 可 以 通过 以 前 不 可 能 的 方式 委托 职责 。 

若 想 使 用 yield fron 结构 ， 就 要 大 幅 改动 代码 。 为 了 说 明 需 要 改动 的 部 分 ，PEP 380 使 用 
了 一 些 专 门 的 术语 。 


























委派 生成 器 
包含 yield from <iterable> 表达 式 的 生成 器 国 数 。 
子 生 成 器 


从 yield from 表 达 式 中 <iterable> 部 分 获取 的 生成 器 。 这 就 是 PEP 380 的 标题 
(“Syntax for Delegating to a Subgenerator”) 中 所 说 的 “ 子 生成 器 ”(subgenerator)。 
调用 方 
PEP 380 使 用 “调用 方 ” 这 个 术语 指 代 调 用 委派 生成 器 的 客户 端 代码 。 在 不 同 的 语 境 
中 ， 我 会 使 用 “客户 端 ” 代 替 “ 调 用 方 ”， 以 此 与 委派 生成 器 (也 是 调用 方 ， 因 为 它 调 
用 了 子 生成 器 ) 区 分 开 。 
PEP 380 经 常 使 用 “和 迭代 器 ”这 个 词 指 代 子 生成 器 。 这 样 会 让 人 误解 ， 因 为 委 
派生 成 器 也 是 迭代 器 。 因 此 ， 我 选择 使 用 “ 子 生 成 器 ”这 个 术语 ， 与 PEP 380 
的 标题 (“Syntax for Delegating to a Subgenerator”) 保持 一 致 。 然 而 ， 子 生成 器 可 
能 是 简单 的 迭代 器 ， 只 实现 了 next Fik; 但 是 ，yield from 也 能 处 理 这 
种 子 生成 器 。 不 过 ，3 引 入 yield from 结构 的 目的 是 为 了 支持 实现 了 next, 
send, close 和 throw 方法 的 生成 器 。 




















示例 16-17 能 更 好 地 说 明 yield from 结构 的 用 法 。 图 16-2 把 该 示例 中 各 个 相关 的 部 分 标识 
出 来 了 。 ” 

















注 7: 图 16-2 的 灵感 来 自 Paul Sokolovsky 绘制 的 示意 图 (http://flupy.org/resources/yield-from.pdf) 。 
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委派 生成 器 
grouper 





子 生成 器 
averager 


def nain(data): 









results = {} 
for key, values tn data.itens(): 
group = grouper(results, key) 
next (group) 
for value in values: 
group.send(value) 
group. send(None) 


def averager(): 
total = 0.0 









count = 0 
average = None 
while True: 
term = yield 
if term is None: 
break 











def grouper(results, key): 
while True: 





results[key] = yield from averager() 





report(results) 










total += term 

count += 1 

average = total/count 
return Result(count, average) 












16-2: 委派 生成 器 在 yield from 表达 式 处 暂停 时 ， 调 用 方 可 以 直接 把 数据 发 给 子 生成 器 ， 子 生成 
器 再 把 产 出 的 值 发 给 调用 方 。 子 生成 器 返回 之 后 ， 解 释 器 会 抛 出 StopIteration 异常 ， 并 
把 返回 值 附加 到 异常 对 象 上 ， 此 时 委派 生成 器 会 恢复 


coroaverager3.py 脚本 从 一 个 字典 中 读 取 虚构 的 七 年 级 男女 学 生 的 体重 和 身高 。 例 如 ， 
'boys;m' 键 对 应 于 9 个 男 学 生 的 身高 (单位 是 米 )，'girls;kg' 键 对 应 于 10 个 女 学 生 的 体 
E (单位 是 千克 )。 这 个 脚本 把 各 组 数据 传 给 前 面 定 义 的 averager 协 程 ， 然 后 生成 一 个 报 
告 ， 如 下 所 示 ; 

















$ python3 coroaverager3.py 
9 boys averaging 40.42kg 
9 boys averaging 1.39m 

10 girls averaging 42.04kg 

10 girls averaging 1.43m 


示例 16-17 中 列 出 的 代码 显然 不 是 解决 这 个 问题 最 简单 的 方案 ， 但 是 通过 实例 说 明了 
yield from 结构 的 用 法 。 这 个 示例 的 灵感 来 自 “What's New in Python 3.3” 一 文 (https:// 
docs.python.org/3/whatsnew/3.3.html#pep-380) 给 出 的 例子 。 








示例 16-17 coroaverager3.py: 使 用 yield from 计算 平均 值 并 输出 统计 报告 


from collections import namedtuple 


Result = namedtuple('Result', ‘count average') 


# 子 生 成 器 
def averager(): © 
total = 0.0 
count = 0 
average = None 
while True: 
term = yield @ 
if term is None: © 
break 
total += term 
count += 1 
average = total/count 
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return Result(count, average) @ 


# 委派 生成 器 
def grouper(results, key): © 
while True: O 
results[key] = yield from averager() @ 














# 客户 端 代码 , 即 调用 方 
def main(data): © 
results = {} 
for key, values in data.items(): 
group = grouper(results, key) © 
next(group) @ 
for value in values: 
group.send(value) @ 
group.send(None) # 重要 | 四 











# print(results) # 如 果 要 调试 ,去 掉 注释 


report(results) 











# 输出 报告 
def report(results): 
for key, result in sorted(results.items()): 
group, unit = key.split(';') 
print('{:2} {:5} averaging {:.2f}{}'.format( 
result.count, group, result.average, unit)) 


data = { 
'girls;kg': 
[40.9, 38.5, 44.3, 42.2, 45.2, 41.7, 44.5, 38.0, 40.6, 44.5], 
'girls;m': 
[1.6, 1.51, 1.4, 1.3, 1.41, 1.39, 1.33, 1.46, 1.45, 1.43], 
"boys;kg': 
[39.0, 40.8, 43.2, 40.8, 43.1, 38.6, 41.4, 40.6, 36.3], 
"boys;m': 
[1.38, 1.5, 1.32, 1.25, 1.37, 1.48, 1.25, 1.49, 1.46], 
} 
if _ name == '_ main_': 


main(data) 


@ 与 示例 16-13 中 的 averager 协 程 一 样 。 这 里 作为 子 生成 器 使 用 。 
@ nain 函数 中 的 客户 代码 发 送 的 各 个 值 绑 定 到 这 里 的 term 变量 上 。 









































O 至 关 重 要 的 终止 条 件 。 如 果 不 这 么 做 ,使 用 yield from 调用 这 个 协 程 的 生成 器 会 永远 


BASE, 
© 返回 的 Result 会 成 为 grouper 函数 中 yield from 表达 式 的 值 。 
© grouper 是 委派 生成 器 。 








O 这 个 循环 每 次 迭代 时 会 新 建 一 个 averager 实例 ， 每 个 实例 都 是 作为 协 程 使 用 的 生成 器 
对 象 。 

@ grouper 发 送 的 每 个 值 都 会 经 由 yield from 处 理 ， 通 过 管道 传 给 averager 实例 。 
grouper 会 在 yield from 表 达 式 处 暂停 ， 等 待 averager 实例 处 理 客户 端 发 来 的 值 。 
averager 实例 运行 完毕 后 ， 返 回 的 值 绑 定 到 results[key] 上 。while 循环 会 不 断 创建 
averager 实例 ， 处 理 更 多 的 值 。 

© main 函数 是 客户 端 代码 ， 用 PEP 380 定义 的 术语 来 说 ， 是 “调用 方 ”。 这 是 驱动 一 切 的 
国 数 。 

© group 是 调用 grouper 国 数 得 到 的 生成 器 对 象 ， 传 给 grouper 函数 的 第 一 个 参数 是 
results， 用 于 收集 结果 ， 第 二 个 参数 是 某 个 键 。group 作为 协 程 使 用 。 

O 预 激 group 协 程 。 

D 把 各 个 value 传 给 grouper。 传 人 的 值 最 终 到 达 averager 函数 中 term = yield 那 一 行 ; 
grouper 永远 不 知道 传人 的 值 是 什么 。 

@ 把 None 传 入 grouper， 导 致 当前 的 averager 实例 终止 ， 也 让 grouper 继续 运行 ， 再 创 
建 一 个 averager 实例 ， 处 理 下 一 组 值 。 


示例 16-17 中 最 后 一 个 标号 前 面 有 个 注释 一 一 “重要 ! "”， 强 调 这 行 代码 (group. 
send(None)) 至 关 重 要 : 终止 当前 的 averager 实例 ， 开 始 执 行 下 一 个 。 如 果 注 释 掉 那 一 
行 ， 这 个 脚本 不 会 输出 任何 报告 。 此 时 ， 把 main 函数 靠近 末尾 的 print (results) JPH 
注释 去 掉 ， 你 会 发 现 ，results 字典 是 空 的 。 

研究 为 何 没有 收集 到 数据 ， 能 检验 自己 有 没有 理解 yield from 结构 的 运作 
方式 。 本 书 的 代码 仓库 中 有 coroaverager3.py 脚本 的 代码 (https://github.com/ 


fluentpython/example-code/blob/master/16-coroutine/coroaverager3.py)。 原 因 说 
明 如 下 。 






































下 面 简要 说 明示 例 16-17 的 运作 方式 ， 还 会 说 明 把 main 函数 中 调用 group.send(None) 那 一 
行 代码 ( 带 有 “重要 ! ”注释 的 那 一 行 ) 去 掉 会 发 生 什么 事 。 


。 外 层 for 循环 每 次 迭代 会 新 建 一 个 grouper 实例 ,赋值 给 group 变量 ;group 是 委派 生成 器 。 

。 调用 next(group)， 预 激 委派 生成 器 grouper， 此 时 进入 while True 循环 ， 调 用 子 生 成 
器 averager 后 ， 在 yield from 表达 式 处 暂停 。 

。 内 层 for 循环 调用 group.send(value)， 直 接 把 值 传 给 子 生 成 器 averager。 同 时 ， 当 前 
的 grouper 实例 (group) 在 yield from 表达 式 处 暂停 。 

。 内 层 循环 结束 后 ，group 实例 依旧 在 yield from 表达 式 处 暂停 ， 因 此 ，grouper 函数 定 
义 体 中 为 results[key] 赋值 的 语句 还 没有 执行 。 

。 如 果 外 层 for 循环 的 末尾 没有 group.send(None) ,那么 averager 子 生 成 器 永远 不 会 终止， 
委派 生成 器 group 永远 不 会 再 次 激活 ， 因 此 永远 不 会 为 results[key] 赋值 。 

。 外 层 for 循环 重新 进 代 时 会 新 建 一 个 grouper 实例 ， 然 后 绑 定 到 group 变量 上 。 前 一 
grouper 实例 〈 以 及 它 创建 的 尚未 终止 的 averager 子 生 成 器 实例 ) 被 垃圾 回收 程序 回 
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这 个 试验 想 表 明 的 关键 一 点 是 ， 如 果子 生成 器 不 终止 ， 委 派生 成 器 会 在 yield 
From 表达 式 处 永远 暂停 。 如 果 是 这 样 ， 程 序 不 会 向 前 执行 ， 因 为 yield from 
(5 yield 一样 ) 把 控制 权 转 交 给 客户 代码 ( 即 ， 委 派生 成 器 的 调用 方 ) T. 
TA, 肯定 有 任务 无 法 完成 。 

















示例 16-17 展示 了 yield from 结构 最 简单 的 用 法 ， 只 有 一 个 委派 生成 器 和 一 个 子 生 成 器 。 
因为 委派 生成 器 相当 于 管道 ， 所 以 可 以 把 任意 数量 个 委派 生成 器 连接 在 一 起 : 一 个 委派 
生成 器 使 用 yield from 调用 一 个 子 生 成 器 ， 而 那个 子 生 成 器 本 身 也 是 委派 生成 器 ， 使 用 
yield from 调用 另 一 个 子 生成 器 ， 以 此 类 推 。 最 终 ， 这 个 链条 要 以 一 个 只 使 用 yield 表达 
式 的 简单 生成 器 结束 ， 不 过 ， 也 能 以 任何 可 迭代 的 对 象 结束 ， 如 示例 16-16 所 示 。 


任何 yield from 链条 都 必须 由 客户 驱动 ， 在 最 外 层 委派 生成 器 上 调用 next(.….) 函数 
或 .send(...) 方 法 。 可 以 隐 式 调用 ， 例 如 使 用 for 循环 。 


下 面 综述 PEP 380 对 yield fron 结构 的 正式 说 明 。 


16.8 yield from 的 意义 


制定 PEP 380 时 ， 有 人 质疑 作者 Greg Ewing 提议 的 语义 过 于 复杂 了 。 他 的 回应 之 一 是 : 
“对 人 类 来 说 ， 几 乎 所 有 最 重要 的 信息 都 在 靠近 顶部 的 某 个 段落 里 。” 他 还 引述 了 PEP 380 
草稿 中 的 一 段 话 ， 当 时 那 段 话 是 这 样 的 ; 
“把 迭代 器 当 作 生成 器 使 用 ， 相 当 于 把 子 生成 器 的 定义 体内 联 在 yield from 表达 式 
中 。 此 外 ， 子 生成 器 可 以 执行 return 语句 ， 返 回 一 个 值 ， 而 返回 的 值 会 成 为 yield 
from iA AGL.” © 


PEP 380 中 已 经 没有 这 段 宽 慰 人 心 的 话 ， 因 为 没有 涵盖 所 有 极端 情况 。 不 过 ， 一 开始 可 以 
这 样 粗 略 地 说 。 

批准 后 的 PEP 380 在 “Proposal” 一 节 (https://www.python.org/dev/peps/pep-0380/#proposal ) 
分 六 点 说 明了 yield from 的 行为 。 这 里 ， 我 几乎 原封 不 动 地 引述 ， 不 过 把 有 歧义 的 “ 运 代 
器 ”一 词 都 换 成 了 “ 子 生 成 器 "， 还 做 了 进一步 说 明 。 示 例 16-17 阐明 了 下 述 四 点 。 


。 子 生成 器 产 出 的 值 都 直接 传 给 委派 生成 器 的 调用 方 ( 即 客户 端 代码 )。 

。 使 用 send() 方 法 发 给 委派 生成 器 的 值 都 直接 传 给 子 生成 器 。 如 果 发 送 的 值 是 None, Hf 
么 会 调用 子 生成 器 的 __next__() 方法 。 如 果 发 送 的 值 不 是 None， 那 么 会 调用 子 生成 器 
的 send() 方法 。 如 果 调 用 的 方法 抛 出 stopIteration 异常 ， 那 么 委派 生成 器 恢复 运行 。 
任何 其 他 异常 都 会 向 上 冒 宛 ， 传 给 委派 生成 器 。 

。 生成 器 退出 时 , 生成 器 (或 子 生 成 器 ) 中 的 return expr 表达 式 会 触发 StopIteration(expr) 
异常 抛 出 。 

e yield from 表达 式 的 值 是 子 生成 器 终止 时 传 给 StopIteration 异常 的 第 一 个 参数 。 

























































































注 8: 摘自 Python-Dev 邮件 列表 中 的 一 个 消息 :“PEP 380 (yield from a subgenerator) comments” ( 发布 于 
2009 年 3 月 21 日 ，https://mail.python.org/pipermail/python-dev/2009-March/087385.html)。 
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yield from 结构 的 另外 两 个 特性 与 异常 和 终止 有 关 。 


。 传人 委派 生成 器 的 异常 ， 除 了 GeneratorExit 之 外 都 传 给 子 生 成 器 的 throw() 方法 。 如 

果 调 用 throw() 方法 时 抛 出 StopIteration 异常 ， 委 派生 成 器 恢复 运行 。StopIteration 
之 外 的 异常 会 向 上 冒 泡 ， 传 给 委派 生成 器 。 

。 如 果 把 GeneratorExit 异常 传人 委派 生成 器 ， 或 者 在 委派 生成 器 上 调用 close() 方 法， 
那么 在 子 生 成 器 上 调用 close() 方法 ， 如 果 它 有 的 话 。 如 果 调 用 cLose() 方法 导致 异常 
抛 出 ， 那 么 异常 会 向 上 冒 泡 ， 传 给 委派 生成 器 ， 否 则 ， 委 派生 成 器 抛 出 GeneratorExit 
异常 。 

yield from 的 具体 语义 很 难 理解 ， 尤 其 是 处 理 异常 的 那 两 点 。Greg Ewing 做 得 很 好 ， 在 

PEP 380 中 使 用 英语 阐述 了 yield from 的 语义 。 


Ewing 还 使 用 擅 代码 (使 用 Python 句法 ) 演示 了 yield fron 的 行为 。 我 个 人 认为 值得 花 
时 间 研 究 PEP 380 中 的 伪 代 码 。 不 过 ， 那 段 伪 代 码 长 达 40 行 ， 看 一 遍 很 难 理解 。 

若 想 研究 那 段 伪 代 码 ， 最 好 将 其 简化 ， 只 涵盖 yield fron 最 基本 且 最 常见 的 用 法 。 

假设 yield from 出 现在 委派 生成 器 中 。 客 户 端 代 码 驱 动 着 委派 生成 器 ， 而 委派 生成 器 驱 
动 着 子 生成 器 。 那 么 ， 为 了 简化 涉及 到 的 逻辑 ， 我 们 假设 客户 端 没 有 在 委派 生成 器 上 调 
用 .throw(.….) 或 .ctose() 方法。 此 外 ， 我 们 还 假设 子 生成 器 不 会 抛 出 异常 ， 而 是 一 直 运 
行 到 终止 ， 让 解释 器 抛 出 StopIteration 异常。 


示例 16-17 中 的 脚本 就 做 了 这 些 简化 逻辑 的 假设 。 其 实 ， 在 真实 的 代码 中 ， 委 派生 成 器 应 
该 运行 到 结束 。 下 面 来 看 一 下 在 这 个 简化 的 美满 世界 中 ，yield from 是 如 何 运 作 的 。 


请 看 示例 16-18， 那 里 列 出 的 代码 是 委派 生成 器 的 定义 体 中 下 面 这 一 行 代码 的 扩充 : 
RESULT = yield from EXPR 
自己 试 着 理解 示例 16-18 中 的 逻辑 。 


示例 16-18 简化 的 伪 代 码 ， 等 效 于 委派 生成 器 中 的 RESULT = yield from EXPR 语句 (这 
里 针对 的 是 最 简单 的 情况 ， 不 支持 .throw(...) 和 .close() 方法 ， 而 且 只 处 
PE StopIteration 异常 ) 


_i = iter(EXPR) @ 
try: 
y = next(_i) @ 
except StopIteration as _e: 
_r =_e.value © 
else: 
while 1: @ 
_s = yield y 日 
try: 
_y = _i.send(_s) O 
except StopIteration as e: @ 
_r = _e.value 
break 




















































































































RESULT = r © 
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O EXPR 可 以 是 任何 可 友 代 的 对 象 ， 因 为 获取 迭代 器 _i (这 是 子 生 成 器 ) 使 用 的 是 iter() 
国 数 。 
O 预 激 子 生 成 器 ， 结果 保 存在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 
© 如 果 殷 出 StopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 给 _r 
情况 下 的 返回 值 (RESULT)。 
O 运行 这 个 循环 时 ， 委 派生 成 器 会 阻塞 ， 只 作为 调用 方 和 子 生 成 器 之 间 的 通道 。 
O 产 出 子 生 成 器 当前 产 出 的 元 素 ; 等 待 调用 方 发 送 _s 中 保存 的 值 。 注 意 ， 这 个 代码 清单 
中 只 有 这 一 个 yield 表达 式 。 
尝试 让 子 生成 器 癌 前 执行 ， 转 发 调用 方 发 送 的 _s。 
O 如 果子 生成 器 抛 出 StopIteration 异常 ， 获 取 value 属性 的 值 ， 赋 值 给 r， 然 后 退出 循 
环 ， 让 委派 生成 器 恢复 运行 。 
© 返回 的 结果 (RESULT) 是 _r， 即 整个 yield from 表达 式 的 值 。 
在 这 段 简 化 的 伪 代 码 中 ， 我 保留 了 PEP 380 中 那 段 伪 代 码 使 用 的 变量 名 称 。 这 些 变量 是 : 
i GRB) 
子 生成 器 
y ( 产 出 的 值 ) 
子 生 成 器 产 出 的 值 
r (结果 ) 
最 终 的 结果 ( 即 子 生成 器 运行 结束 后 yield from 表达 式 的 值 ) 
_s (发 送 的 值 ) 
调用 方 发 给 委派 生成 器 的 值 ， 这 个 值 会 转发 给 子 生 成 器 
_e (异常 ) 
异常 对 象 (在 这 段 简化 的 伪 代 码 中 始终 是 StopIteration 实例 ) 


除了 没有 处 理 .throw(...) 和 .ctose() 方法 之 外 ， 这 段 简化 的 伪 代 码 还 在 子 生 成 器 上 调 
用 .send(.….) 方法 ， 以 此 达到 客户 调用 next() 函数 或 .send(.….) 方法 的 目的 。 首 次 阅读 
时 不 要 担心 这 些 细微 的 差别 。 前 面 说 过 ， 即 使 yield from 结构 只 做 示例 16-18 中 展示 的 事 
情 ， 示 例 16-17 也 依旧 能 正常 运行 。 
但 是 ， 现 实情 况 要 复杂 一 些 ， 因 为 要 处 理 客户 对 .throw(...) 和 .ctose() 方法 的 调用 ， 而 
这 两 个 方法 执行 的 操作 必须 传 和 信子 生 成 器 。 此 外 ， 子 生成 器 可 能 只 是 纯粹 的 迭代 器 ， 不 支 
fF .throw(...) 和 .close() 方法， 因此 yield from 结构 的 逻辑 必须 处 理 这 种 情况 。 如 果子 
生成 器 实现 了 这 两 个 方法 ， 而 在 子 生成 器 内 部 ， 这 两 个 方法 都 会 触发 异常 抛 出 ， 这 种 情况 
也 必须 由 yield from 机 制 处 理 。 调 用 方 可 能 会 无 缘 无 故地 让 子 生成 器 自己 抛 出 异常 ， 实 现 
yield from 结构 时 也 必须 处 理 这 种 情况 。 最 后 ， 为 了 优化 ， 如 果 调 用 方 调 用 next(...) e 
数 或 .send(None) 方法 ， 都 要 转交 职责 ， 在 子 生 成 器 上 调用 next(...) 函数 ， 仅 当 调用 方 
发 送 的 值 不 是 None 时 ， 才 使 用 子 生 成 器 的 .send(.…) 方法 。 
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这 是 最 简单 
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为 了 方便 对 比 ， 下 面 列 出 PEP 380 中 扩充 yield from 表达 式 的 完整 伪 代 码 ， 而 且 加 上 了 带 
标号 的 注解 。 示 例 16-19 中 的 代码 是 一 字 不 差 复制 过 来 的 ， 只 有 标注 是 我 自己 加 的 。 


再 次 说 明 ， 示 例 16-19 中 的 代码 是 委派 生成 器 的 定义 体 中 下 面 这 一 个 语句 的 扩充 : 


RESULT = yield from EXPR 























示例 16-19 伪 代 码 ， 等 效 于 委派 生成 器 中 的 RESULT = yield from EXPR 语句 
_i = iter(EXPR) @ 
try: 
_y = next(_i) @ 
except StopIteration as _e: 
r = _e.value © 
else: 
while 1: @ 
try: 
_s=yield_y © 
except GeneratorExit as e: QO 
try: 
m = _i.close 
except AttributeError: 
pass 
else: 
_m() 
raise _e 
except BaseException as e: @ 
_x = sys.exc_info() 
try: 
m = _i.throw 
except AttributeError: 
raise _e 
else: O 
try: 
-y = _m(*_x) 
except StopIteration as _e: 
_r = _e.value 
break 


if _s is None: @ 
_y = next(_i) 
else: 
_y = _i.send(_s) 
except StopIteration as _e: @ 
_r = _e.value 
break 


RESULT = r @® 


@ EXPR 可 以 是 任何 可 迭代 的 对 象 ， 因 为 获取 迭代 器 _i (这 是 子 生成 器 ) 使 用 的 是 iter () 


函数 。 
O 预 激 子 生成 器 ， 结 果 保 存在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 
© 如 果 抛 出 StopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 给 _r 





à 
I 








这 是 最 简 身 
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情况 下 的 返回 值 (RESULT), 

O 运行 这 个 循环 时 ， 委 派生 成 器 会 阻塞 ， 只 作为 调用 方 和 子 生 成 器 之 间 的 通道 。 

O 产 出 子 生成 器 当前 产 出 的 元 素 ， 等 待 调用 方 发 送 _s 中 保存 的 值 。 这 个 代码 清单 中 只 
这 一 个 yield 表达 式 。 

O 这 一 部 分 用 于 关闭 委 涛 生成 器 和 子 生 成 器 。 因 为 子 生成 器 可 以 是 任何 可 迭代 的 对 象 ， 所 
以 可 能 没有 close 方法 。 

O 这 一 部 分 处 理 调 用 方 通过 .throw(.….) 方法 传人 的 异常 。 同 样 ， 子 生成 器 可 以 是 返 代 
器 ， 从 而 设 有 throw 方 法 可 调用 一 一 这 种 情况 会 导致 委派 生成 器 抛 出 异常 。 

O 如 果子 生成 器 有 throw 方法， 调用 它 并 传 入 调用 方 发 来 的 异常 。 子 生成 器 可 能 会 处 理 
传 入 的 异常 (然后 继续 循环 ) ， 可 能 抛 出 StopIteration 异常 〈 从 中 获取 结果 ， 赋 值 给 
_r， 循 环 结束 ) ; 还 可 能 不 处 理 ， 而 是 抛 出 相同 的 或 不 同 的 异常 ， 向 上 冒 泡 ， 传 给 委派 
生成 器 。 

© 如 果 产 出 值 时 没有 异常 …… 

O 尝试 让 子 生 成 器 向 前 执行 …… 

D 如 果 调 用 方 最 后 发 送 的 值 是 None， 在 子 生成 器 上 调用 next 函数 ， 否 则 调用 send 方法 。 

O 如 果子 生成 器 抛 出 StopIteration 异常 ， 获 取 value 属性 的 值 ， 赋 值 给 r， 然 后 退出 循 
环 ， 让 委派 生成 器 恢复 运行 。 

图 返回 的 结果 (RESULT) 是 _r， 即 整个 yield from 表达 式 的 值 。 

这 段 yield from 伪 代 码 的 大 多 数 逻 辑 通过 六 个 try/except RKI, MLRS THE, K 

此 有 点 难以 阅读 。 此 外 ， 用 到 的 其 他 流程 控制 关键 字 有 一 个 while、 一 个 if 和 一 个 yield。 

找到 while JAP, yield 表达 式 以 及 next(...) 函数 和 .send(...) 方 法 调用 ， 这些 代码 有 

助 于 对 yield from 结构 的 运作 方式 有 个 整体 的 了 解 。 


就 在 示例 16-19 所 列 伪 代 码 的 顶部 ， 有 行 代码 (标号 @) 揭示 了 一 个 重要 的 细节 : 要 预 激 
TERA. 这 表明 ， 用 于 自动 预 激 的 装饰 器 (如 16.4 节 定 义 的 那个 ) 与 yield from 结构 
不 兼容 。 
在 本 节 开 头 引 用 的 那个 消息 中 (https://mail.python.org/pipermail/python-dev/2009-March/087385. 
html) ， 关 于 扩充 yield fron 结构 的 伪 代 码 ，Greg Ewing 说 : 
我 不 是 让 你 通过 扩充 的 伪 代 码 学 习 这 个 结构 ， 那 段 伪 代 码 是 为 了 让 语言 专家 型 明白 
细节 。 
仔细 研究 扩充 的 伪 代 码 可 能 没什么 用 一 一 这 与 你 的 学 习 方 式 有 关 。 显 然 ， 分析 真 正 使 用 
yield from 结构 的 代码 要 比 深 入 人 研究 实现 这 一 结构 的 伪 代 码 更 有 好 人 处。 不过， 我 见 过 的 
yield from 示例 几乎 都 使 用 asyncio 模块 做 异步 编程 ， 因 此 要 有 有 效 的 事件 循环 才能 运行 。 
第 18 章 会 多 次 用 到 yield from 结构 。16.11 节 中 有 几 个 链接 ， 指 向 使 用 yield from 结构 
的 一 些 有 趣 代 码 ， 而 且 无 需 事件 循环 。 


下 面 分 析 一 个 使 用 协 程 的 经 典 案例 : 仿真 编程 。 这 个 案例 没有 展示 yield from 结构 的 用 
法 ， 但 是 揭示 了 如 何 使 用 协 程 在 单个 线程 中 管理 并 发 活动 。 












































































































































注 9: Nick Coghlan 于 2009 年 4 月 5 日 在 Python-ideas 邮件 列表 中 发 布 的 一 个 消息 (https://mail.python.org/ 
pipermail/python-ideas/2009-April/003954.html) 中 质疑 ，yield from 结构 隐 式 预 激 是 不 是 好 主意 。 
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16.9 ”使 用 案例 : 使 用 协 程 做 离散 事件 仿真 


协 程 能 自然 地 表述 很 多 算法 ， 例 如 人 仿真、 游戏、 异步 IJO， 以 及 其 他 事件 驱动 型 编程 
形式 或 协作 式 多 任务 。 

一 一 Guido van Rossum 和 Phillip J. Eby 

PEP 342—Coroutines via Enhanced Generators 


本 节 我 会 说 明 如 何 只 使 用 协 程 和 标准 库 中 的 对 象 实现 一 个 特别 简单 的 仿真 系统 。 在 计算 机 
科学 领域 ， 仿 真是 协 程 的 经 典 应 用 。 第 一 门面 向 对 象 的 语言 Simula 引入 了 协 程 这 个 概念 ， 
目的 就 是 为 了 支持 仿真 。 

下 述 仿真 示例 不 是 为 了 做 学 术 研 究 。 协 程 是 asyncio 包 的 基础 构建 。 通 过 仿 
真 系统 能 说 明 如 何 使 用 协 程 代替 线程 实现 并 发 的 活动 ， 而 且 对 理解 第 18 章 
讨论 的 asyncio 包 有 极 大 的 帮助 。 














分 析 示 例 之 前 ， 先 简单 介绍 一 下 仿真 。 


16.9.1 离散 事件 仿真 简介 

离散 事件 仿真 Discrete Event Simulation, DES) 是 一 种 把 系统 建 模 成 一 系列 事件 的 仿真 类 
型 。 在 离散 事件 仿真 中 ,仿真 “ 钟 ” 向 前 推进 的 量 不 是 固定 的 ， 而 是 直接 推进 到 下 一 个 事件 
模型 的 模拟 时 间 。 假 如 我 们 抽象 模拟 出 租车 的 运营 过 程 ， 其 中 一 个 事件 是 乘客 上 车 ， 下 一 
个 事件 则 是 乘客 下 车 。 不 管 乘客 坐 了 5 分 钟 还 是 50 分 钟 ， 一 旦 乘客 下 车 ， 仿 真 钟 就 会 更 新 ， 
指向 此 次 运营 的 结束 时 间 。 使 用 离散 事件 仿真 可 以 在 不 到 一 秒 钟 的 时 间 内 模拟 一 年 的 出 租车 
运营 过 程 。 这 与 连续 仿真 不 同 ， 连 续 仿 真 的 仿真 钟 以 固定 的 量 (通常 很 小 ) 不 断 向 前 推进 。 
显然 ， 回 合 制 游 戏 就 是 离散 事件 仿真 的 例子 : 游戏 的 状态 只 在 玩家 操作 时 变化 ， 而 且 一 旦 
玩家 决定 下 一 步 怎么 走 了 ， 仿 真 钟 就 会 冻结 。 而 实时 游戏 则 是 连续 仿真 ， 仿 真 钟 一 直 在 运 
行 ， 游 戏 的 状态 在 一 秒 钟 之 内 更 新 很 多 次 ， 因 此 反应 慢 的 玩家 特别 吃亏 。 

这 两 种 仿真 类 型 都 能 使 用 多 线程 或 在 单个 线程 中 使 用 面向 事件 的 编程 技术 (例如 事件 循环 
驱动 的 回调 或 协 程 ) 实现。 可 以 说 ， 为 了 实现 连续 仿真 ， 在 多 个 线程 中 处 理 实时 并 行 的 操 
作 更 自然 。 而 协 程 恰好 为 实现 离散 事件 仿真 提供 了 合理 的 抽象 。SimPy ”是 一 个 实现 离散 事 
件 仿真 的 Python 包 ， 通 过 一 个 协 程 表示 离散 事件 仿真 系统 中 的 各 个 进程 。 


在 仿真 领域 ， 进 程 这 个 术语 指 代 模 型 中 某 个 实体 的 活动 ， 与 操作 系统 中 的 进 
程 无 关 。 仿 真 系统 中 的 一 个 进程 可 以 使 用 操作 系统 中 的 一 个 进程 实现 ， 但 是 
通常 会 使 用 一 个 线程 或 一 个 协 程 实现 。 























































































































注 10: PEP 342 (https://www.python.org/dev/peps/pep-0342/) 中 “Motivation” 一 节 开 头 的 第 一 句 话 。 
注 11: 参见 SimPy 的 官方 文档 (https://simpy.readthedocs.org/en/latest/)。 不 要 和 著名 的 SymPy (http://www. 
sympy.org) 混淆 了 。SymPy 是 一 个 符号 数学 库 ， 与 DES 无 关 。 
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如 果 对 仿真 感 兴趣 ， 
的 功能 实现 一 个 特 另 


值得 研究 一 下 SimPy。 不 过 ， 在 这 一 节 我 会 说 明 如 何 只 使 用 标准 库 提供 
| 简单 的 离散 事件 仿真 系统 。 我 的 目的 是 增进 你 对 使 用 协 程 管理 并 发 操作 








的 感性 认 知 。 若 想到 


解 下 一 节 所 讲 的 内 容 ， 要 仔细 研究 ， 不 过 这 一 付出 能 得 到 很 大 回报 ， 让 


我 们 洞悉 asyncio, Twisted 和 Tornado 等 库 是 如 何在 单个 线程 中 管理 多 个 并 发 活动 的 。 


16.9.2 ”出 租车 队 运 营 仿 真 


仿真 程序 taxi_sim.py 会 创建 儿 辆 出 租车 ， 每 辆 车 会 拉 几 个 乘客 ， 然 后 


离 车 库 ， 四 处 徘徊 ， 





四 处 徘徊 和 行程 所 用 的 时 间 使 用 指数 分 布 生成 。 为 了 让 显示 的 信息 更 加 整洁 ， 时 间 





回 家 。 出 租车 首先 驶 
寻找 乘客 ， 拉 到 乘客 后 ， 行 程 开 始 ， 乘客 下 车 后 ， 继 续 四 处 徘徊 。 


使 用 取 











整 的 分 钟 数 ， 不 过 这 个 仿真 程序 也 能 使 用 浮 点 数 表示 耗 时 。” 每 辆 出 租车 每 次 的 状态 变化 


都 是 一 个 事件 。 








图 16-3 是 运行 这 个 程序 的 输出 示例 。 
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$ python3 taxi_sim.py -s 3 


Event(time=0, proc=0, action=' leave garage') 
Event(time=2, proc=0, action='pick up passenger') 
Event(time=5, proc=1, action='leave garage') 
Event(time=8, proc=1, action='pick up passenger') 
Event(time=10, proc=2, action='leave garage') 
Event(time=15, proc=2, action='pick up passenger') 
Event(time=17, proc=2, action='drop off passenger') 
Event(time=18, proc=0, action='drop off passenger') 
Event(time=18, proc=2, action='pick up passenger') 
Event(time=25, proc=2, action='drop off passenger') 
Event(time=27, proc=1, action='drop off passenger') 
Event(time=27, proc=2, action='pick up passenger') 
Event(time=28, proc=0, action='pick up passenger') 
Event(time=40, proc=2, action='drop off passenger') 
Event(time=44, proc=2, action='pick up passenger') 
Event(time=55, proc=1, action='pick up passenger ') 
Event(time=59, proc=1, action='drop off passenger') 
Event(time=65, proc=0, action='drop off passenger’) 
Event(time=65, proc=1, action='pick up passenger') 
Event(time=65, proc=2, action='drop off passenger ') 
Event(time=72, proc=2, action='pick up passenger') 
Event(time=76, proc=0, action='going home') 
Event(time=80, proc=1, action='drop off passenger') 
Event(time=88, proc=1, action='pick up passenger') 
Event(time=95, proc=2, action='drop off passenger') 
Event(time=97, proc=2, action='pick up passenger') 
Event(time=98, proc=2, action='drop off passenger') 
Event(time=106, proc=1, action='drop off passenger') 
Event(time=109, proc=2, action='going home') 
Event(time=110, proc=1, action='going home') 


) 


2 
2 


>. 


of events *** 































































































16-3; 运行 taxi_sim.py 创建 3 辆 出 租车 的 输出 示例 。-s 3 参数 设置 随机 数 生 成 器 的 种 子 ， 这 样 在 调 
试 和 演示 时 可 以 重复 运行 程序 ， 输 出 相同 的 结果 。 不 同 颜 色 的 箭头 表示 不 同 出 租车 的 行程 “ 

注 12: 我 不 是 运营 出 租车 队 的 行家 ， 因 此 别 太 在 意 显 示 的 时 间 。 离 散 事 件 仿 真 经 常 使 用 指数 分 布 。 你 会 看 到 
一 些 非常 短 的 行程 ， 你 就 假设 那 是 一 个 雨天 ， 一 些 乘客 坐 出 租车 只 走 了 一 个 街区 。 在 理想 的 城市 中 ， 
即使 下 十 也 有 出 租车 。 

注 13: 图 16-3 的 彩色 图 片 可 从 本 书页 面 (http://www.ituring.com.cn/book/1564) 的 “资源 下 载 ”部 分 获取 。 

一 一 编者 注 
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图 16-3 中 最 值得 注意 的 一 件 事 是 ，3 辆 出 租车 的 行程 是 交叉 进行 的 。 那 些 箭 头 是 我 加 上 
的 ， 为 的 是 让 你 看 清 各 辆 出 租车 的 行程 : 箭头 从 乘客 上 车 时 开始 ， 到 乘客 下 车 后 结束 。 有 
了 箭头 ， 能 直观 地 看 出 如 何 使 用 协 程 管理 并 发 的 活动 。 


图 16-3 中 还 有 几 件 事 值 得 注意 。 


。 出 租车 每 隔 5 分 钟 从 车 库 中 出 发 。 
。 0 号 出 租车 2 分 钟 后 拉 到 乘客 (time=2), 1 号 出 租车 3 分 钟 后 拉 到 乘客 (time=8)，2 号 
出 租车 5 分 钟 后 拉 到 乘客 (time=15) 。 
。 0 号 出 租车 拉 了 两 个 乘客 (BRERA): 第 一 个 乘客 从 time=2 时 上 车 ,到 time=18 时 下 车 ， 
第 二 个 乘客 从 time=28 时 上 车 ， 到 time=65 时 下 车 一 一 这 是 此 次 仿真 中 最 长 的 行程 。 
。 1 号 出 租车 拉 了 四 个 乘客 (绿色 箭头 )， 在 time=110 时 回 家 。 
。 2 号 出 租车 拉 了 六 个 乘客 (红色 箭 头 )， 在 time=109 时 回 家 。 这 辆 车 最 后 一 次 行程 从 
time=97 时 开始 ， 只 持续 了 一 分 钟 。” 
。 1 号 出 租车 的 第 一 次 行程 从 time=8 时 开始 ， 在 这 个 过 程 中 2 号 出 租车 离开 了 车 库 
(time=10) ， 而 且 完 成 了 两 次 行程 〈 那 两 个 短 的 红色 箭头 )。 
。 在 此 次 运行 示例 中 ， 所 有 排 定 的 事件 都 在 默认 的 仿真 时 间 内 〈180 分 钟 ) 完成 ， 最 后 一 
次 事件 发 生 在 time=110 时 。 
仿真 结束 时 可 能 还 有 未 完成 的 事件 。 如 果 是 这 种 情况 ， 最 后 一 条 消息 会 是 下 面 这 样 : 
*** end of simulation time: 3 events pending *** 
taxi_sim.py 脚本 的 完整 代码 在 示例 A-6 中 ， 本 章 只 会 列 出 与 协 程 相关 的 部 分 。 真 正 重要 的 
函数 只 有 两 个 :taxi_process (一 个 协 程 )， 以 及 执行 仿真 主 循环 的 Simulator.run 方法 。 
示例 16-20 是 taxi_process 函数 的 代码 。 这 个 协 程 用 到 了 别处 定义 的 两 个 对 象 ，compute_ 
delay 函数 ， 返 回 单位 为 分 钟 的 时 间 间 隔 ，Event 类 ， 一 个 namedtuple， 定 义 方式 如 下 : 
Event = collections.namedtuple('Event', 'time proc action') 
在 Event 实例 中 ，time 字段 是 事件 发 生 时 的 仿真 时 间 ，proc 字段 是 出 租车 进程 实例 的 编 
号 ，action 字段 是 描述 活动 的 字符 串 。 
下 面 逐 行 分 析 示 例 16-20 中 的 taxi_process 函数 。 
示例 16-20 taxi_sim.py: taxi_process 协 程 ， 实 现 各 辆 出 租车 的 活动 
def taxi_process(ident, trips, start time=0): @ 
""" 每 次 改变 状态 时 创建 事件 ,把 控制 权 让 给 仿真 器 """ 
time = yield Event(start_time, ident, 'leave garage') @ 
for i in range(trips): © 


time = yield Event(time, ident, 'pick up passenger') @ 
time = yield Event(time, ident, 'drop off passenger') © 











































































































7 




















yield Event(time, ident, 'going home') @ 


# 出 租车 进程 结束 O 














注 14: 乘客 是 我 ， 我 发 现 忘 了 带 钱 包 。 
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O 每 辆 出 租车 调用 一 次 taxi_process 函数 ， 创 建 一 个 生成 器 对 象 ， 表 示 各 辆 出 租车 的 运 
营 过 程 。ident 是 出 租车 的 编号 (如 上 述 运行 示例 中 的 0、1、2) ; trips 是 出 租车 回 家 








之 前 的 行程 数量 ，start_time 是 出 租车 离开 车 库 的 时 间 。 








O 产 出 的 第 一 个 Event 是 ‘leave garage'。 执 行 到 这 一 行 时 ， 协 程 会 暂停 ， 让 仿真 主 循环 
着 手 处 理 排 定 的 下 一 个 事件 。 需 要 重新 激活 这 个 进程 时 ， 主 循环 会 发 送 (使 用 send 方 














法 ) ee 赋值 给 time。 
O 每 次 行程 都 会 执行 一 遍 这 个 代码 块 。 

















O 产 出 一 Rea 表示 拉 到 乘客 了 。 协 程 在 这 里 暂停 。 需 要 重新 激活 这 个 协 程 时 ， 





主 循环 会 发 送 〈 使 用 send Fik) 当前 的 时 间 。 














O 产 出 一 个 Event 实例 ， 表 示 乘 客 下 车 了 。 协 程 在 这 里 暂停 ， 等 待 主 循环 发 送 时 间 ， 然 后 


重新 激活 。 














O 指定 的 行程 数量 完成 后 ，for 循环 结束 ， 最 后 产 出 "going home’ 事件 。 此 时 ， 协 程 最 后 
一 次 暂停 。 仿 真主 循环 发 送 时 间 后 ， 协 程 重新 激活 ， 不过， 这 里 没有 把 产 出 的 值 赋值 给 





变量 ， 因 为 用 不 到 了 。 
O 协 程 执行 到 最 后 时 ， 生 成 器 对 象 抛 出 StopIteration 异常 。 








你 可 以 在 Python 控制 台中 调用 taxi_process 函数 , 自己 “驾驶 ”(drive) 一 辆 出 租车 “, 如 





示例 16-21 所 示 。 


示例 16-21 了 驱动 taxi_process 协 程 
>>> from taxi_sim import taxi process 
>>> taxi = taxi_process(ident=13, trips=2, start_time=0) @ 
>>> next(taxi) @ 
Event(time=0, proc=13, action='leave garage') 
>>> taxi.send(_.time + 7) © 
Event(time=7, proc=13, action='pick up passenger') @ 
>>> taxi.send(_.time + 23) O 
Event(time=30, proc=13, action='drop off passenger') 
>>> taxi.send(_.time + 5) O 
Event(time=35, proc=13, action='pick up passenger' ) 
>>> taxi.send(_.time + 48) @ 
Event(time=83, proc=13, action='drop off passenger') 
>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home') © 
>>> taxi.send(_.time + 10) © 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
StopIteration 








O 创建 一 个 生成 器 对 象 ， 表 示 一 辆 出 租车 。 这 辆 出 租车 的 编号 是 13 (ident=13), 








时 开始 工作 ， 有 两 次 行程 。 
O 预 激 协 程 ， 产 出 第 一 个 事件 。 


a3 











从 t=0 


TE 15: 描述 协 程 的 操作 时 经 常 使 用 “drive” 这 个 动词 ， 例 如 : 客户 代码 把 值 发 给 协 程 ， 驱 动 协 程 。 在 示例 


























16-21 中 ， 客 户 代码 是 你 在 控制 台中 输入 的 代码 。(drive 一 词 有 不 同 的 含义 ， 因 此 在 不 同 的 语 境 中 有 





不 同 的 译 法 ， 例 如 这 个 脚注 所 在 的 那 名 话 中 译 为 “驾驶 "。 一 一 译 者 注 ) 














O 现在 可 以 发 送 当前 时 间 。 在 控制 台中 ，_ 变量 绑 定 的 是 前 一 个 结果 ; 这 里 我 在 时 间 上 加 
7， 意 思 是 这 辆 出 租车 7 分 钟 后 找到 第 一 个 乘客 。 

O 这 个 事件 由 for 循环 在 第 一 个 行程 的 开头 产 出 。 

O 发 送 _.time + 23， 表 示 第 一 个 乘客 的 行程 持续 了 23 分 钟 。 

O 然后 ， 这 辆 出 租车 会 徘徊 5 分 钟 。 

@ 最 后 一 次 行程 持续 48 分 钟 。 

O 两 次 行程 完成 后 ，for 循环 结束 ， 产 出 ‘going home' 事件 。 

O 如 果 尝 试 再 把 值 发 给 协 程 ， 会 执行 到 协 程 的 末尾 。 协 程 返 回 后 ， 解 释 器 会 抛 出 
StopIteration 异常 。 

注意 ， 在 示例 16-21 中 ， 我 使 用 控制 台 模 拟 仿 真主 循环 。 我 从 taxi 协 程 产 出 的 Event 实例 

中 获取 .time 属性， 随意 与 一 个 数 相 加 ， 然 后 调用 taxi.send 方法 发 送 两 数 之 和 ， 重 新 激 

活 协 程 。 在 这 个 仿真 系统 中 ， 各 个 出 租车 协 程 由 Simulator.run 方法 中 的 主 循环 驱动 。 仿 

真 “ 钟 ”保存 在 sim_time 变量 中 ， 每 次 产 出 事件 时 都 会 更 新 仿真 钟 。 

为 了 实例 化 Simulator 类 ，taxi_sim.py 脚本 的 main 函数 构建 了 一 个 taxis 字典 ， 如 下 所 示 : 

taxis = {i: taxi process(i, (i + 1) * 2, i * DEPARTURE_INTERVAL) 


for i in range(num_ taxis)} 
sim = Simulator(taxis) 



























































DEPARTURE_INTERVAL 的 值 是 5， 如 果 num_taxis 的 值 与 前 面 的 运行 示例 一 样 也 是 3， 这 三 行 
代码 的 作用 与 下 述 代 码 一 样 : 


taxis = {0: taxi_process(ident=0, trips=2, start_time=0), 
1: taxi_process(ident=1, trips=4, start_time=5), 
2: taxi_process(ident=2, trips=6, start_time=10)} 
sim = Simulator(taxis) 


lk, taxis 字典 的 值 是 三 个 参数 不 同 的 生成 器 对 象 。 例 如 ，1 号 出 租车 从 start_time=5 
时 开始 ， 寻 找 四 个 乘客 。 构 建 Simulator 实例 只 需 这 个 字典 参数 。 
Simulator. init ”方法 如 示例 16-22 所 示 。Simulator 类 的 主要 数据 结构 如 下 。 
self.events 
PriorityQueue 对 象 ， 保 存 Event 实例 。 元 素 可 以 放 进 〈 使 用 put 方法 ) PriorityQueue 
对 象 中 ， 然 后 按 item[O] (Bil Event 对 象 的 time 属性 ) 依 序 取出 (使 用 get 方法 )。 
self.procs 
一 个 字典 ， 把 出 租车 的 编号 映射 到 仿真 过 程 中 激活 的 进程 (表示 出 租车 的 生成 器 对 象 )。 
这 个 属性 会 绑 定 前 面 所 示 的 taxis 字典 副本 。 
示例 16-22 taxi_sim.py: Simulator 类 的 初始 化 方法 


class Simulator: 





























def _ init (self, procs_map): 
self.events = queue.PriorityQueue() @ 
self.procs = dict(procs_map) @ 
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O 保存 排 定 事件 的 PriorityQueue 对 象 ， 按 时 间 正 向 排序 

© 获取 的 procs_map 参数 是 一 个 字典 (或 其 他 映射 )， 可 是 又 从 中 构建 一 个 字典 ， 创 建 本 
地 副本 ， 因 为 在 仿真 过 程 中 ， 出 租车 回 家 后 会 从 self.procs 属性 中 移 除 ， 而 我 们 不 想 
修改 用 户 传 入 的 对 象 。 


优先 队列 是 离散 事件 仿真 系统 的 基础 构件 : 创建 事件 的 顺序 不 定 ， 放 入 这 种 队列 之 后 ， 可 
以 按照 各 个 事件 排 定 的 时 间 顺 序 取出 。 例 如 ， 可 能 会 把 下 面 两 个 事件 放 入 优先 队列 : 


Event(time=14, proc=0, action='pick up passenger') 
Event(time=11, proc=1, action='pick up passenger' ) 


这 两 个 事件 的 意思 是 ，0 号 出 租车 14 分 钟 后 拉 到 第 一 个 乘客 ， 而 1 号 出 租车 (time=10 时 
出 发 ) 1 分 钟 后 (time= i. 拉 到 乘客 。 如 果 这 两 个 事件 在 队列 中 ， 主 循环 从 优先 队列 中 获 
取 的 第 一 个 事件 将 是 Event(time=11, proc=1, action='pick up passenger'), 


分 析 这 个 仿真 系统 的 主 算法 Simulator.run 方 法 。 在 main 函数 中 ， 实 例 化 
ee 类 之 后 立即 就 调用 了 这 个 方法 ， 如 下 所 示 : 


sim = Simulator(taxis) 
sim.run(end_time) 


Simulator 类 带 有 注解 的 代码 清单 在 示例 16-23 中 ， 下 面 先 概 述 Simulator.run 方法 实现 的 
算法 。 


(1) 迭代 表示 各 辆 出 租车 的 进程 。 
a. 在 各 辆 出 租车 上 调用 next() 函数 ， 预 激 协 程 。 这 样 会 产 出 各 辆 出 租车 的 第 一 个 事件 。 
b. 把 各 个 事件 放 入 Simulator 类 的 self.events 属性 (队列) 中 。 


(2) 满足 sim_time < end_time 条 件 时 ， 运 行 仿真 系统 的 主 循 环 。 
a. 检查 self.events 属性 是 否 为 空 ， 如 果 为 空 ， 跳 出 循环 。 
b. 从 self .events 中 获取 当前 事件 (current_event)， 即 PriorityQueue 对 象 中 时 间 值 最 
小 的 Event 对 象 。 
c. 显示 获取 的 Event 对 象 。 
d. 获取 current_event 的 time 属性 ， 更 新 仿真 时 间 。 
e. 把 时 间 发 给 current_event 的 proc 属性 标识 的 协 程 ， 产 出 下 一 个 事件 (next_event)。 
f 把 next_event 添加 到 self.events 队列 中 ， 排 定 next_event, 


Simulator 类 完整 的 代码 如 示例 16-23 所 示 。 
示例 16-23 ”taxi_sim.py: Simulator, 一 个 简单 的 离散 事件 仿真 类 ;关注 的 重点 是 run 方法 


class Simulator: 




















































































































def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() 
self.procs = dict(procs_map) 


def run(selfs end_time): @ 
"" 排 定 并 显示 事件 ,直到 时 间 结 束 """ 
# 排 定 各 辆 出 租车 的 第 一 个 事件 
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for _, proc in sorted(self.procs.items()): @ 
first_event = next(proc) ©@ 
self.events.put(first_event) @ 


# 这 个 仿真 系统 的 主 循环 
sim_time = 0 日 
while sim_time < end_time: © 
if self.events.empty(): @ 
print('*** end of events ***') 
break 





current_event = self.events.get() O 
sim time, proc_id, previous_action = current_event © 
print('taxi:', proc_id, proc_id * ' ', current_event) 四 
active_proc = self.procs[proc_id] @ 
next_time = sim_time + compute_duration(previous_action) @ 
try: 
next_event = active_proc.send(next_time) @ 
except StopIteration: 
del self.procs[proc_id] @ 
else: 
self .events.put(next_event) 四 
else: Q 
msg = '*** end of simulation time: {} events pending ***' 
print(msg.format(self.events.qsize())) 


O run 方法 只 需要 仿真 结束 时 间 (end_time) 这 一 个 参数 。 

@ 使 用 sorted 函数 获取 self.procs 中 按键 排序 的 元 素 ， 用 不 到 键 ， 因 此 赋值 给 _。 

© 调用 next(proc) 预 激 各 个 协 程 ， 向 前 执行 到 第 一 个 yield 表达 式 ， 做 好 接收 数据 的 准 

备 。 产 出 一 个 Event 对 象 。 

O 把 各 个 事件 添加 到 self.events 属性 表示 的 PriorityQueue 对 象 中 。 如 示例 16-20 中 的 
运行 示例 ， 各 辆 出 租车 的 第 一 个 事件 是 "Leave garage ' 。 

四 把 sim_time 变量 (仿真 钟 ) HF. 

O 这 个 仿真 系统 的 主 循 环 : sim_time 小 于 end_time 时 运行 。 

O 如 果 队 列 中 没有 未 完成 的 事件 ， 退 出 主 循环 。 

O 获取 优先 队列 中 time 属性 最 小 的 Event 对 象 ， 这 是 当前 事件 (current_event ) 。 

© 拆 包 Event 对 象 中 的 数据 。 这 一 行 代码 会 更 新 仿真 钟 sim_time， 对 应 于 事件 发 生 时 的 
时 间 。” 

O 显示 Event 对 象 ， 指 明 是 哪 辆 出 租车 ， 并 根据 出 租车 的 编号 缩 进 。 

O 从 self.procs 字典 中 获取 表示 当前 活动 的 出 租车 的 协 程 。 

四 调用 compute_duration(...) 国 数 ， 传 入 前 一 个 动作 (例如 ，'pick up passenger', ‘drop 
off passenger' 等 )， 把 结果 加 到 sim_time 上 ， 计 算出 下 一 次 活动 的 时 间 。 

O 把 计算 得 到 的 时 间 发 给 出 租车 协 程 。 协 程 会 产 出 下 一 个 事件 (next_event), ， 或 者 抛 出 
StopIteration 异常 (完成 时 )。 

D 如 果 抛 出 了 StopIteration 异常 ， 从 self.procs 字典 中 删除 那个 协 程 。 
















































































注 16: 这 通常 是 离散 事件 仿真 : 每 次 循环 时 仿真 钟 不 会 以 固定 的 量 推进 , 而 是 根据 各 个 事件 持续 的 时 间 推进 。 
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© 否则 ， 把 next_event 放 入 队列 中 。 
O 如 果 循环 由 于 仿真 时 间 到 了 而 退出 ， 显 示 待 完 成 的 事件 数量 〈《 有 时 可 能 碰巧 是 零 )。 


注意 ， 示 例 16-23 中 的 Simulator. run 方法 有 两 处 用 到 了 第 15 章 介 绍 的 else 块 ， 而 且 都 不 
在 if 语句 中 。 


。 主 while 循环 有 一 个 else 语句 ， 报 告 仿真 系统 由 于 到 达 结 束 时 间 而 结束 ， 而 不 是 由 于 
没有 事件 要 处 理 而 结束 。 

。 靠近 主 while 循环 底部 那个 try 语句 把 next_time 发 给 当前 的 出 租车 进程 ， 尝 试 获 取 下 
一 个 事件 (next_event)， 如 果 成 功 ， 执 行 else 块 ,把 next_event 放 入 seLf.events 队 
列 中 。 


我 觉得 ， 如 果 没 有 这 两 个 else H, Simulator. run 方法 的 代码 会 有 点 难以 阅读 。 


这 个 示例 的 要 旨 是 说 明 如 何在 一 个 主 循环 中 处 理事 件 ， 以 及 如 何 通 过 发 送 数据 驱 动 协 程 。 
这 是 asyncio 包 底层 的 基本 思想 ， 我 们 在 第 18 章 会 学 习 这 个 包 。 


16.10 本章 小 结 
Guido van Rossum 写 道 ， 生 成 器 有 三 种 不 同 的 代码 编写 风格 : 


ARMY “AK” (GARB), 、“ 推 送 式 ” (例如 计算 平均 值 那 个 示例 ) , 还 有 “任务 
A” (it Dave Beazley 写 的 协 程 教程 了 吗 ……)。” 


第 14 章 专门 介绍 了 迭代 器 ， 本 章 则 介绍 了 “推送 式 ” 协 程 ， 还 介绍 了 特别 简单 的 “任务 
式 ” 一 一 仿真 示例 中 的 出 租车 进程 。 第 18 章 会 在 并 发 编程 中 使 用 这 两 种 技术 实现 异步 任务 。 


计算 移动 平均 值 的 示例 展示 了 协 程 的 常见 用 途 : 累加 器 ， 处 理 接 收 到 的 值 。 我 们 知道 ， 
可 以 在 协 程 上 应 用 装饰 器 ， 预 激 协 程 ， 在 某 些 情况 下 ， 这 么 做 更 方便 。 不 过 要 记 住 ， 预 
激 装 饰 器 与 协 程 的 某 些 用 法 不 兼容 。 尤 其 是 yield from subgenerator()， 这 个 结构 假定 
subgenerator 没有 预 激 ， 然 后 自动 预 激 。 


每 次 调用 send 方法 时 ， 作 为 累加 器 使 用 的 协 程 可 以 获取 部 分 结果 ， 不 过 能 返回 值 的 协 程 
更 有 用 。 这 个 特性 在 PEP 380 中 定义 ， 于 Python 3.3 引入 。 我 们 知道 ， 现 在 生成 器 中 的 
return the_result 语句 会 抛 出 StopIteration(the_result) 异常 ， 这 样 调用 方 可 以 从 异常 
的 value 属性 中 获取 the_result。 这 样 获取 协 程 的 结果 还 是 很 麻烦 ， 不 过 PEP 380 引入 的 
yield fron 句法 能 自动 处 理 


探讨 yield from 结构 时 ， 我 们 首先 从 使 用 简单 的 迭代 器 的 示例 入 手 ， 然 后 又 举 了 一 个 
例子 ， 重 点 说 明 yield from 结构 的 三 个 主要 组 件 : 委派 生成 器 (在 定义 体 中 使 用 yield 
from), yield from 激活 的 子 生 成 颖 ， 以 及 通过 委派 生成 器 中 yield from 表达 式 架 设 起 来 
的 通道 把 值 发 给 子 生 成 器 ， 从 而 驱动 整个 过 程 的 客户 代码 。 最 后 ， 那 一 节 参 照 PEP 380 中 
使 用 的 英语 和 类 似 Python 的 伪 代 码 分 析 了 yield from 结构 的 正式 定义 。 
































































































































注 17: 摘自 对 Python-ideas 邮件 列表 中 “Yield-From: Finalization guarantees” 消 息 的 回复 (https://mail.python. 
org/pipermail/python-ideas/2009-April/003884.html), Guido 所 说 的 David Beazley 写 的 教程 是 “A Curious 


Course on Coroutines and Concurrency” (http://www.dabeaz.com/coroutines/) 。 
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本 章 最 后 举 了 一 个 离散 事件 仿真 示例 ， 说 明 如 何 使 用 生成 器 代替 线程 和 回调 ， 实 现 并 发 。 
那个 出 租车 仿真 系统 虽然 简单 ， 但 是 首次 一 客 了 事件 驱动 型 框架 (如 Tornado 和 asyncio) 
的 运作 方式 : 在 单个 线程 中 使 用 一 个 主 循环 驱动 协 程 执行 并 发 活动 。 使 用 协 程 做 面向 事件 
编程 时 ， 协 程 会 不 断 把 控制 权 让 步 给 主 循环 ， 激 活 并 向 前 运行 其 他 协 程 ， 从 而 执行 各 个 并 
发 活动 。 这 是 一 种 协作 式 多 任务 : 协 程 显 式 自 主 地 把 控制 权 让 步 给 中 央 调 度 程序 。 而 多 线 
程 实现 的 是 抢占 式 多 任务 。 调 度 程 序 可 以 在 任何 时 刻 暂 停 线 程 〈 即 使 在 执行 一 个 语句 的 过 
程 中 ) ， 把 控制 权 让 给 其 他 线程 。 


最 后 要 说 明 一 点 ， 本 章 对 协 程 的 定义 是 宽泛 的 、 不 正式 的 ， 即 : 通过 客户 调用 .send(.….) 
方法 发 送 数 据 或 使 用 yield from 结 构 驱 动 的 生成 器 国 数 。 写 作 本 书 时 ,，“PEP 342 一 
Coroutines via Enhanced Generators” (https://www.python.org/dev/peps/pep-0342/) 和 现 有 的 
大 多 数 Python 书籍 都 使 用 这 个 宽泛 的 定义 。 第 18 章 介绍 的 asyncio 库 建构 在 协 程 之 上 ， 
不 过 采用 的 协 程 定义 更 为 严格 : 在 asyncio Eh, WE (通常 ) 使 用 @asyncio.coroutine 
装饰 器 装饰 ， 而 且 始 终 使 用 yield from 结构 驱动 ， 而 不 通过 直接 在 协 程 上 调用 .send(..….) 
方法 驱动 。 当 然 ， 在 asyncio 库 的 底层 ， 协 程 使 用 next(...) 国 数 和 .send(...) 方法 驱动 ， 
不 过 在 用 户 代 码 中 只 使 用 yield fron 结构 驱动 协 程 运 行 。 


16.11 延伸 阅读 


David Beazley 是 Python 生成 器 和 协 程 的 终极 权威 。 他 与 Brian Jones & 34 HY «Python 
Cookbook (第 3 hi) 中 文 版 》 一 书 中 有 很 多 使 用 协 程 编写 的 诀 窑 。Beazley 在 PyCon 期 间 开 
设 的 课程 兼 有 深度 和 广度 ， 因 此 享有 盛名 。 首 先是 PyCon US 2008 WRJ “Generator Tricks 
for Systems Programmers” 课 程 (http://www.dabeaz.com/generators/), ， 在 PyCon US 2009 期 
间 又 开设 了 声名 远 播 的 “A Curious Course on Coroutines and Concurrency” 课程 (http://www. 
dabeaz.com/coroutines/， 三 个 部 分 的 全 部 视频 链接 很 难 找 到 : 第 一 部 分 ，http://pyvideo.org/ 
video/213; 第 二 部 分 ，http://pyvideo.org/video/215; 第 三 部 分 ，http://pyvideo.org/video/214)。 
他 最 新 的 课程 在 蒙特 利 尔 PyCon 2014 期 间 开 设 ， 题 为 “Generators: The Final Frontier” 
(http://www.dabeaz.com/finalgenerator/) 。 在 这 个 课程 中 ， 他 举 了 更 多 并 发 的 例子 ， 因 此 与 本 
PE 18 章 的 话题 联系 更 大 。 他 根本 不 担心 学 员 的 大 脑 会 爆炸 ， 因 此 在 “The Final Frontier” 
课程 的 最 后 一 部 分 用 协 程 代替 了 经 典 的 访问 者 模式 ， 用 于 计算 算术 表达 式 。 

使 用 协 程 能 以 多 种 新 方式 组 织 代码 ， 不 过 与 递归 和 多 态 (动态 调度 ) 一 样 ， 要 花 点 时 间 才 能 
习惯 。James Powell 写 了 一 篇 文章 ， 题 为 “Greedy algorithm with coroutines” (http://seriously. 
dontusethiscode.com/2013/05/01/greedy-coroutine.html)。 他 在 这 篇 文章 中 使 用 协 程 重 写 了 经 典 
的 算法 。 你 可 能 还 想 浏 览 ActiveState Code 诀窍 数据 库 (https://code.activestate.com/recipes/) 
中 标记 为 协 程 的 流行 诀 窒 (https://code.activestate.com/recipes/tags/coroutine/) 。 


Paul Sokolovsky 为 Damien George 开发 的 超级 精简 的 MicroPython (http://micropython.org/, #F 
对 微 控制 器 ) 解释 器 实现 了 yield from 结构 。 在 研究 这 个 特性 的 过 程 中 ， 他 制作 了 非常 详细 
的 示意 图 (https://dl.dropboxusercontent.com/u/44884329/yield-from.pdf) ， 解 说 yield from 结构 
的 工作 原理 ， 并 在 python-tulip 邮件 列表 中 分 享 。Sokolovsky 很 友好 ， 人 允许 我 把 那个 PDF X 
件 复制 到 本 书 的 网 站 中 ， 那 个 文件 的 固定 链接 是 http://flupy.org/resources/yield-from.pdf。 
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写作 本 书 时 ， 只 有 asyncto 库 本 身 和 使 用 这 个 库 的 代码 大 量 使 用 yield from。 我 花 了 很 
多 时 间 ， 想 找到 不 依赖 asyncio fy yield from 示例 。Greg Ewing (PEP 380 的 作者 ， 
为 CPython 实现 了 yield from) 发 表 了 一 些 yield from 的 使 用 示例 (http://www.cosc. 
canterbury.ac.nz/greg.ewing/python/yield-from/yield_from.html) : BinaryTree 类 、 一 个 简单 
的 XML 解析 器 和 一 个 任务 调度 程序 。 


Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 效 方 法 》 一 书 中 的 
第 40 条 短小 精 及 ， 题 为 “考虑 用 协 程 来 并 发 地 运行 多 个 国 数 ”( 网 上 有 免费 的 英文 版 样 
章 ，http:Wwww.effectivepython.com/2015/03/10/consider-coroutines-to-run-many-functions- 
concurrently/) 。 这 一 节 中 使 用 yield from 驱动 生成 器 的 示例 是 我 见 过 最 棒 的 ， 那个 示例 实 
现 了 John Conway 发 明 的 “生命 游戏 ”(https://en.wikipedia.org/wiki/Conway%27s_Game_ 
of_Life)， 使 用 协 程 管理 游戏 运行 过 程 中 各 个 细胞 的 状态 。 该 书 的 随 书 代码 在 一 个 GitHub 
仓库 中 (https://github.com/bslatkin/effectivepython)。 我 重 构 了 那个 “生命 游戏 ”示例 一 一 
把 Slatkin 书 中 的 函数 和 类 与 测试 代码 分 开 (原来 的 代码 : https://github.com/bslatkin/ 
effectivepython/blob/master/example_code/item_40.py)。 我 还 编写 了 doctest 形式 的 测试 ， 因 
此 不 用 运行 脚本 就 能 看 到 各 个 协 程 和 类 的 输出 。 重 构 后 的 示例 发 布 在 GitHub Gist 网 站 上 
(https://gist.github.com/ramalho/da5590bc38c973408839 ) 。 


还 有 几 个 有 趣 的 示例 没 用 asyncio 库 ， 只 用 了 yield from: Peter Otten 在 Python Tutor 邮件 
列表 中 发 布 的 消息 , “Comparing two CSV files using Python” (https://mail.python.org/pipermail/ 
tutor/2015-February/104200.html) ; Ian Ward 以 iPython Notebook 形式 发 布 的 “Iterables, Iterators, 
and Generators” #¢ £ (http://nbviewer.ipython.org/github/wardi/iterables-iterators-generators/blob/master/ 
Iterables,9620Iterators,%20Generators.ipynb) ， 实 现 的 是 剪刀 石头 布 游 戏 。 


Guido van Rossum 在 python-tulip Google Group 中 发 表 了 一 篇 内 容 很 长 的 消息 ， 题 为 “The 
difference between yield and yield-from” (https://groups.google.com/forum/#!msg/python- 
tulip/bmphRrryuFk/aB45sEJUomYJ), {É 得 — ik. 2009 年 3 月 21 H, Nick Coghlan 在 
Python-Dev 邮件 列表 中 发 布 了 带 有 大 量 注释 的 yield from 扩充 实现 (https://mail.python. 
org/pipermail/python-dev/2009-March/087382.html) 。 在 那 篇 销 息 中 ， 他 写 道 : 


不 管 人 们 是 否 觉 得 使 用 yield from 结构 的 代码 难以 理解 ， 也 不 管 人 们 能 否 领 会 协作 
式 多 线程 相关 的 概念 ，yield from 结构 底层 的 精巧 处 理 能 实现 真正 的 谋 套 生成 器 。 







































































Yury Selivanov 撰写 的 “PEP 492—Coroutines with async and await syntax” (https:/www.python. 
org/dev/peps/pep-0492/) 提议 为 Python 增加 两 个 关键 字 : async 和 await, async 与 其 他 现 有 
的 关键 字 结 合 使 用 ， 用 于 定义 新 的 语言 结构 。 例 如 ，async def 用 于 定义 协 程 ，async for 用 
FAA Rat (实现 _aiter Fil __anext_ 方法， 这 是 协 程 版 的 _iter next 
方法 ) 友 代 可 迭代 的 异步 对 象 。 为 了 避免 与 即将 引入 的 async 关键 字 冲 突 ，asyncio.async() 
函数 将 在 Python 3.4.4 中 重 命名 为 asyncio.ensure_future(), await 关键 字 的 作用 与 yield 
From 结构 类 似 ， 不 过 只 能 在 以 async def 定义 的 协 程 (禁止 使 用 yield 和 yield from) 中 使 
FA. PEP 492 使 用 新 句法 把 发 展 成 类 似 协 程 对 象 的 生成 器 与 全 新 的 原生 协 程 对 象 明 确 地 区 
DFT. trii F async 和 await 关键 字 ， 以 及 几 个 特殊 的 新 方法 ，Python 语言 将 对 原生 的 
协 程 对 象 提供 更 好 的 支持 。 协 程 已 经 做 好 准备 ， 会 成 为 Python 未 来 特别 重要 的 特性 ， 因 此 
Python 语言 应 该 更 好 地 集成 协 程 。 
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使 用 离散 事件 仿真 系统 做 试验 是 熟悉 协作 式 多 任务 的 好 方法 。 维 基 百 科 中 的 “Discrete 
event simulation” 一 文 (https://en.wikipedia.org/wiki/Discrete_event_simulation) 是 不 错 的 入 门 
AREH “Ashish Gupta 写 的 短篇 教程 “Writing a Discrete Event Simulation: Ten Easy Lessons” 
(http:/Awww.cs.northwestern.edu/~agupta/_projects/networking/QueueSimulation/mm1.html) 说 明 
了 如 何 自己 动手 (不 使 用 特别 的 库 ) 编写 离散 事件 仿真 系统 。 那 篇 教程 中 的 代码 使 用 Java 
编写 ， 因 此 是 基于 类 的 ， 而 且 没 使 用 协 程 ， 不 过 可 以 轻松 地 移植 到 Python。 除 了 代码 之 外 ， 
那 篇 简短 的 教程 还 介绍 了 离散 事件 仿真 的 术语 和 组 件 。 把 Gupta 教程 中 的 示例 转换 成 Python 
类 ， 然 后 再 转换 成 利用 协 程 的 类 ， 是 个 很 好 的 练习 。 


如 果 想 使 用 现成 的 Python 协 程 库 ， 可 以 使 用 SimPy。 这 个 库 的 在 线 文档 (https://simpy 
readthedocs.org/en/latest/) 中 说 道 : 


SimPy 是 使 用 标准 的 Python 开发 的 基于 进程 的 离散 事件 仿真 框架 ， 事 件 调度 程序 基 
于 Python 的 生成 器 实现 ， 因 此 还 可 用 于 异步 网 络 或 实现 多 智能 体系 统 (BP TRH, 
也 可 真正 通信 ) 。 


协 程 不 是 特别 新 的 Python 特性 ， 但 是 得 到 异步 编程 框架 支持 (Tornado 最 先 支 持 ) 之 
前 ， 只 在 较 罕 的 应 用 领域 内 使 用 。Python 3.3 引入 的 yield from 结构 和 Python 3.4 添加 的 
asyncio 包 可 能 会 提升 协 程 《和 Python 3.4 本 身 ) 的 使 用 量 。 但 写作 本 书 时 ，Python 3.4 发 
布 还 不 到 一 年 ， 因 此 观看 David Beazley 的 课程 ， 阅 读 涉 及 这 个 话题 的 经 典 实例 时 ， 不 会 
有 太 多 内 容 深 入 探讨 Python 协 程 编程 。 不 过 ， 这 只 是 暂时 的 。 




































































raise from lambda 
对 编程 语言 来 说 ， 关 和 键 字 的 作用 是 建立 控制 流程 和 表达 式 计算 的 基本 规则 。 


语言 的 关键 字 像 是 棋盘 游戏 中 的 棋子 。 对 国际 象棋 来 说 ， 关 键 字 是 留 、 曾 、 肖 、 贸 、 
AFPA: MHHAW, EFRO. 


国际 象棋 的 棋 手 实现 计划 时 ， 有 六 种 类 型 的 棋子 可 用 ; 而 围棋 的 棋 手 看 起 来 只 有 一 种 
类 型 的 棋子 可 用 。 可 是 ， 在 围棋 的 玩法 中 ， 相 邻 的 棋子 能 构成 更 大 更 稳定 的 棋子 ， 形 
状 各 异 ， 不 受 束 弹 。 围 棋 棋子 的 某 些 排列 是 不 可 摧毁 的 。 围 棋 的 表现 力 比 国际 象棋 强 。 
围棋 的 开局 走 法 有 361 种 ， 大 约 有 1e+170 个 合 规 的 位 置 ; 而 国际 象棋 的 开局 走 法 有 
20 种 ， 有 1e+50 个 位 置 。 


如 果 为 国际 象棋 添加 一 个 新 棋子 ， 将 带 来 颠覆 性 的 改变 ; 为 编程 语言 添加 一 个 新 的 关 
键 字 也 是 如 此 。 因 此 ， 语言 的 设计 者 谨慎 考虑 引入 新 关键 字 是 合理 的 。 


























注 18: 如 今 ， 即 使 终身 教授 也 同意 ， 维 基 百 科 几 乎 是 学 习 任 何 计算 机 科学 知识 的 入 门 首选 。 对 其 他 知识 而 
言 虽然 不 是 如 此 ， 但 是 在 计算 机 科学 这 方面 ， 维 基 百科 特别 棒 。 
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表 16-1: 不 同 编程 语言 中 的 关键 字数 量 




















关键 字数 量 ”语言 备注 

5 Smalltalk-80 ”以 句法 极 简 而 著称 

25 Go 编程 语言 ， 而 不 是 围棋 

32 C 指 ANSIC。C99 有 37 个 关键 字 ，C11 有 44 个 

33 Python Python 2.7 有 31 个 关键 字 ，Python 1.5 有 28 个 

41 Ruby 关键 字 可 以 作为 标识 符 使 用 (An, class 也 是 一 个 方法 的 名 称 ) 

49 Java 与 C 语 言 一 样 ， 基 本 类 型 的 名 称 (char, float 等 ) 是 保留 字 

60 JavaScript 包含 Java 1.0 的 所 有 关键 字 ， 很 多 都 没 用 (http://mzl.la/1JIr8fM) 

65 PHP PHP 5.3 之 后 引入 了 七 个 关键 字 ， 如 goto, trait 和 yield 

85 C++ 据 cppreference.com 网 站 给 出 的 信息 (http://en.cppreference.com/w/cpp/ 
keyword), C++11 在 现 有 的 75 个 关键 字 的 基础 上 添加 了 10 个 

555 COBOL 这 不 是 我 捏造 的 。 参见 IBM ILE COBOL 手册 (http://publib.boulder. 
ibm.com/iseries/v5r2/ic2924/books/x09 1317316.htm) 

co Scheme 任何 人 都 能 定义 新 关键 字 


* 围棋 的 英文 是 Go， 因 此 作者 备注 这 里 说 的 是 Go 语言 。 一 一 译 者 注 





Python 3 添加 了 nonlocal 关键 字 ， 把 None、True fe False R i A XRF, AAT 
print 和 exec。 在 语言 的 发 展 过 程 中 ， 弃 用 关键 字 十 分 罕见 。 表 16-1 列 出 了 几 门 语 
言 ， 按 照 关键 字 的 数量 排序 。 


Scheme 继承 了 Lisp 的 宏 ， 允 许 任 何人 创建 特殊 的 形式 ， 为 语言 添加 新 的 控制 结构 
和 计算 规则 。 用 户 定义 的 这 种 标识 符 叫 作 “ 铝 法 关键 字 ”。Scheme R5RS 标准 声称 ， 
“这 门 语言 没有 保留 的 标识 符 ”( 标 准 的 第 45 页 ，http://www.schemers.org/Documents/ 
Standards/R5RS/r5rs.pdf) ， 但 是 MIT/GNU Scheme (http://www.gnu.org/software/mitscheme/ 
documentation/mit-scheme-ref/Special-Form-Syntax.html#Special-Form-Syntax) 这 种 特殊 
的 实现 预定 义 了 34 个 身 法 关键 字 ， 例如 if、lambda 和 define-syntax (用 于 创建 新 关 
键 字 的 关键 字 )。” 

Python 像 国际 和 象棋， 而 Scheme 像 围棋 。 

现在 ， 回 到 Python Vik, AIF Guido 对 关键 字 的 态度 过 于 保守 了 。 关 键 字 的 数量 应 
该 少 ,添加 新 关键 字 可 能 会 破坏 大 量 代码 ， 但 是 在 俏 环 中 使 用 else 揭示 了 一 个 递归 问 
A: 在 更 适合 使 用 新 关键 字 的 地 方 重用 现 有 的 关键 字 。 在 for、white 和 try 的 上 下 文 
中 ， 应 该 使 用 then 关键 字 ， 而 不 该 妄 用 else, 

在 这 个 问题 上 ， 最 严重 的 一 点 是 重用 def。 现 在 ， 这 个 关键 字 用 于 定义 函数 、 生 成 器 
和 协 程 ， 而 这 些 对 象 之 间 的 差异 很 大 ， 不 应 该 使 用 相同 的 向 法 声明 。 














注 19:“The Value Of Syntax?” —3¢ (http://lambda-the-ultimate.org/node/4295) 对 可 扩展 的 句法 和 编程 语言 的 可 

用 性 做 了 有 趣 的 探讨 。Lambda the Ultimate 讨论 组 (http:/lambda-the-ultimate.org/) 是 编程 语言 极 客 的 

度假 胜地 。 

注 20: JavaScript, Python 和 其 他 语言 都 有 这 样 的 问题 。 推 荐 阅读 Bob Nystrom A) “What Color Is Your 
Function?” 一 文 (http://journal.stuffwithstuff.com/2015/02/01/what-color-is-your-function/)。 



































引入 yield from 向 法 尤其 让 人 失望 。 再 次 声明 ， 我 觉得 真 的 应 该 为 Python 使 用 者 提供 
HREF, RAMA, AFE THAR: 把 现 有 的 关键 字 串 起 来 ， 创 建新 的 句法 ， 
而 不 添加 描述 性 的 合理 关键 字 。 怒 怕 有 一 天 我 们 要 苦 苦 思索 raise from lambda 是 什么 


意思 。 

突 发 新 闻 

完成 本 书 的 技术 审 校 之 后 ，Yury Selivanov 提交 的 “PEP 492 一 Coroutines with async 
and await syntax” (https://www.python.org/dev/peps/pep-0492/) 好 像 要 被 接受 了 ， 将 
在 Python 3.5 中 实现 。” Guido van Rossum 和 Victor Stinner 都 支持 这 个 PEP， 前 者 是 
Python 语言 的 创造 者 ， 后 者 是 asyncio 库 的 主要 维护 者 ， 而 asyncio 库 将 是 新 句法 的 
主要 使 用 案例 。 回 应 Selivanov 在 Python-ideas 邮件 列表 中 发 布 的 消息 (https://mail. 
python.org/pipermail/python-ideas/2015-April/033007.html) BY, Guido 其 至 上 暗示， 为 了 
实现 这 个 PEP， 可 能 会 延迟 发 布 Python 3.5 (https://mail.python.org/pipermail/python- 
ideas/2015-April/033050.html) 。 


当然 ， 这 会 平息 前 一 节 所 述 的 大 部 分 抱怨 。 








E21: Python 3.5 已 经 接受 了 PEP 492， 增 加 了 两 个 关键 字 : async 和 await, 一 一 编者 注 
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第 17 章 


使 用 future 处 理 并 发 





择 击 线程 的 往往 是 系统 程序 员 ， 他 们 考虑 的 使 用 场景 对 一 般 的 应 用 程序 员 来 说 ， 也 
许 一 生 都 不 会 遇 到 ……: 应 用 程序 员 遇 到 的 使 用 场景 ，999% 的 情况 下 只 需 知 道 如 何 派 
生 一 堆 独 立 的 线程 ， 然 后 用 队列 收集 结果 。! 





Michele Simionato 
深度 思考 Python 的 人 


本 章 主 要 讨论 Python 3.2 引入 的 concurrent. futures 模块 ， 从 PyPI 中 安装 futures 包 
(https://pypi.python.org/pypi/futures/) 之 后 ， 也 能 在 Python 2.5 及 以 上 版 本 中 使 用 这 个 库 。 
这 个 库 封装 了 前 面 的 引文 中 Michele Simionato 所 述 的 模式 ， 特 别 易于 使 用 。 


这 一 章 还 会 介绍 future 的 概念 。future 指 一 种 对 象 ， 表 示 异 步 执行 的 操作 。 这 个 概念 的 作 
用 很 大 ， 是 concurrent. futures 模块 和 asyncio 包 (第 18 章 讨 论 ) 的 基础 。 


下 面 举 个 示例 ， 作 为 引子 。 


17.1 示例 : 网 络 下 载 的 三 种 风格 


为 了 高 效 处 理 网 络 WO， 需 要 使 用 并 发 ， 因 为 网 络 有 很 高 的 延迟 ， 所 以 为 了 不 浪费 CPU Jal 
期 去 等 待 ， 最 好 在 收 到 网 络 响应 之 前 做 些 其 他 的 事 。 


为 了 通过 代码 说 明 这 一 点 ， 我 写 了 三 个 示例 程序 ， 从 网 上 下 载 20 个 国家 的 国旗 图像。 第 























ey 
































注 1: 摘自 Michele Simionato 发 表 的 文章 “Threads, processes and concurrency in Python: some thoughts” (http:/ 
www.artima.com/weblogs/viewpost.jsp?thread=299551), ， 副 标题 为 “Removing the hype around the multicore 


(non) revolution and some (hopefully) sensible comment about threads and other forms of concurrency” 。 
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一 个 示例 程序 flags.py 是 依 序 下 载 的 : 下 载 完 一 
求 下 一 个 图 像 。 另 外 两 个 脚本 是 并 发 下 载 的 : 几乎 同时 请 求 所 有 图 像 ， 每 














AMR, H 





F 将 其 保存 在 硬盘 中 之 后 ， 才 请 





下 载 完 一 个 文件 





就 保存 一 个 文件 。flags_threadpool.py 脚本 使 用 concurrent.futures 模块 ， 而 flags_asyncio. 


py 脚本 使 用 asyncio 包 。 
示例 17-1 是 运行 








有 了 缓存 。 





这 三 个 脚本 得 到 的 结果 ， 每 个 脚本 都 运行 


三 次 。 我 还 在 YouTube 上 发 布 
了 一 个 73 秒 的 视频 (https:Wwww.youtube.com/watch?v=A9e9Cy1UkME)， 让 你 观看 这 些 
脚本 的 运行 情况 ， 你 会 看 到 一 个 OS X Finder 窗口 ， 显 示 运 行 过 程 中 保存 的 国旗 图 像 文件 。 
这 些 脚本 从 flupy.org 下 载 图 像 ， 而 这 个 网 站 架设 在 CDN 之 后 ， 因 此 第 一 次 运行 时 可 能 要 
等 很 久 才 能 看 到 结果 。 示 例 17-1 中 显示 的 结果 是 运行 儿 次 之 后 收集 的 ， 因 此 CDN 中 已 经 








示例 17-1 运行 flags.py、flags_threadpool.py 和 flags_asyncio.py 脚本 得 到 的 结果 


$ python3 flags.py 


BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN @ 


20 flags downloaded in 7.26s @ 

$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP 
20 flags downloaded in 7.20s 

$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP 
20 flags downloaded in 7.09s 

$ python3 flags_threadpool.py 

DE BD CN JP ID EG NG BR RU CD IR MX 
20 flags downloaded in 1.37s © 

$ python3 flags_threadpool.py 

EG BR FR IN BD JP DE RU PK PH CD MX 
20 flags downloaded in 1.60s 

$ python3 flags_threadpool.py 

BD DE EG CN ID RU IN VN ET MX FR CD 
20 flags downloaded in 1.22s 

$ python3 flags_asyncio.py @ 

BD BR IN ID TR DE CN US IR PK PH FR 
20 flags downloaded in 1.36s 

$ python3 flags_asyncio. py 

RU CN BR IN FR BD TR EG VN IR PH CD 
20 flags downloaded in 1.27s 

$ python3 flags_asyncio.py 


MX 


MX 


US 


ID 


NG 


RU 


ET 


NG 


NG 


PH 


US 


US 


NG 


ID 


PH 


PH 


FR 


NG 


JP 


VN 


NG 


PK 


PK 


PK 


TR 


TR 


ET 


DE 


RU IN ID DE BR VN PK MX US IR ET EG NG BD FR CN 


20 flags downloaded in 1.42s 


@ 每 次 运行 脚本 后 
耗 时 。 





@ flags.py 脚本 下 载 20 个 图 像 平均 用 时 7.18 秒 。 





© flags_threadpool.py 脚本 平均 用 时 1.40 秒 。 


© flags_asyncio.py 脚本 平均 用 时 1.35 秒 。 


， 首 先 显示 下 载 过 程 中 下 载 完 


RU TR 


RU TR 


VN IN 


CN VN 


PK BR 


MX EG 


JP PK 


US 


US 


ET 


ET 


IR 


JP 


MX 


VN 


VN 


TR 


IR 


PH 


CD 


US 


JP PH CD TR @ 





毕 的 国家 代码 ， 


最 后 显示 一 个 消息 ， 说 明 


O 注意 国家 代码 的 顺序 : 对 并 发 下 载 的 脚本 来 说 ， 每 次 下 载 的 顺序 都 不 同 。 
两 个 并 发 下 载 的 脚本 之 间 性 能 差异 不 大 ， 不 过 都 比 依 序 下 载 的 脚本 快 5 倍 多 。 这 只 是 一 个 
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特别 小 的 任务 ， 如 果 把 下 载 的 文件 数量 增加 到 几 百 个 ， 并 发 下 载 的 脚本 能 比 依 序 下 载 的 脚 
本 快 20 倍 或 更 多 。 


在 公 网 中 测试 HTTP 并 发 客户 端 可 能 不 小 心 变 成 拒绝 服务 (Denial-of-Service， 
DoS) 攻击 ， 或 者 有 这 么 做 的 嫌疑 。 我 们 可 以 像 示 例 17-1 那样 做 ， 因 为 那 
三 个 脚本 被 硬 编 码 ， 限 制 只 发 起 20 个 请 求 。 如 果 想 大 规模 测试 HTTP 服务 
器 ， 应 该 自己 架设 测试 服务 器 。 在 本 书 的 GitHub 仓库 中 (https://github.com/ 
fluentpython/example-code), 17-futures/countries/README.rst X fF (https://github. 
com/fluentpython/example-code/blob/master/17-futures/countries/README.rst) 说 
明了 如 何在 本 地 架设 Nginx 服务 器 。 


























下 面 我 们 来 分 析 示 例 17-1 测试 的 两 个 脚本 flags.py 和 flags_threadpool.py， 看 看 它们 的 
实现 方式 。 第 三 个 脚本 flags_asyncio.py 留 到 第 18 章 再 分 析 。 将 这 三 个 脚本 一 起 演示 是 为 
了 表明 一 个 观点 : 在 VO 密集 型 应 用 中 ， 如 果 代 码 写 得 正确 ， 那 么 不 管 使 用 哪 种 并 发 策略 
(使 用 线程 或 asyncio 包 ) ， 吞 吐 量 都 比 依 序 执行 的 代码 高 很 多 。 


下 面 分 析 代 码 。 


17.1.1 依 序 下 载 的 脚本 


示例 17-2 不 太 有 吸引 力 ， 不 过 实现 并 发 下 载 的 脚本 时 会 重用 其 中 的 大 部 分 代码 和 设置 ， 
此 值得 分 析 一 下 。 

















为 了 清楚 起 见 ， 示 例 17-2 没有 处 理 异常 。 稍 后 会 处 理 异常 ， 这 里 我 们 想 集中 
说 明代 码 的 基本 结构 ， 以 便 和 并 发 下 载 的 脚本 进行 对 比 。 





示例 17-2 fags.py: 依 序 下 载 的 脚本 ， 另 外 两 个 脚本 会 重用 其 中 几 个 函数 
import os 
import time 
import sys 


import requests @ 


POP20_CC = ('CN IN US ID BR PK NG BD RU JP ' 
'MX PH VN ET EG DE IR TR CD FR').split() @ 


BASE_URL = 'http://flupy.org/data/flags' © 
DEST_DIR = 'downloads/' @ 
def save_flag(img, filename): @ 


path = os.path.join(DEST_DIR, filename) 
with open(path, 'wb') as fp: 





418 | #172 


def 


de 


= 


def 


def 


fp.write(img) 


get_flag(cc): @ 

url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = requests.get(url) 

return resp.content 


show(text): @ 
print(text, end=' ') 
sys.stdout.flush() 


download_many(cc_list): @ 
for cc in sorted(cc_list): © 
image = get_flag(cc) 
show(cc) 
save_flag(image, cc.lower() + '.gif') 


return Len(cc_list) 


main(download_many): @ 

tO = time.time() 

count = download_many(POP20_CC) 

elapsed = time.time() - tO 

msg = '\n{} flags downloaded in {:.2f}s' 
print(msg.format(count, elapsed) ) 


if _name == '_ main_': 


main(download_many) @ 


@ FA requests 库 。 这 个 库 不 在 标准 库 中 ， 因 此 依照 惯例 ， 在 导入 标准 库 中 的 模块 〈os、 
time 和 sys) 之 后 导入 ， 而 且 使 用 一 个 空 行 分 隔 开 。” 

O 列 出 人 口 最 多 的 20 个 国家 的 ISO 3166 国家 代码 ， 按 照 人 口 数量 降序 排列 。 

© 获取 国旗 图 像 的 网 站 。” 

O 保存 图 像 的 本 地 目录 。 


O 把 ing 























( 字 节 序列 ) 保存 到 DEST_DIR 目录 中 ， 命 名 为 filename。 








O 指定 国家 代码 ， 构 建 URL， 然 后 下 载 图 像 ， 返 回响 应 中 的 二 进 制 内 容 。 

O 显示 一 个 字符 串 ， 然 后 刷新 sys.stdout， 这 样 能 在 一 行销 息 中 看 到 进度 。 在 Python 中 
得 这 么 做 ， 因 为 正常 情况 下 ， 遇 到 换行 才 会 刷新 stdout 缓冲 。 

© download_many 是 与 并 发 实现 比较 的 关键 函数 。 

O 按 字母 表 顺 序 迭 代 国 家 代码 列表 ， 明 确 表 明 输 出 的 顺序 与 输入 一 致 。 返 回 下 载 的 国旅 数量 。 

O main 函数 记录 并 报告 运行 download_many 函数 之 后 的 耗 时 。 



































注 2: 可 以 使 用 pip install requests 命令 安装 requests Æ, 一 一 编者 注 
注 3: 国旗 图 像 出 自 CIA 世界 概况 (http://1.usa.gov/1JIsmHJ)， 由 美国 政府 发 布 ， 属 公共 领域 。 我 把 这 些 图 

















RI 





制 到 了 自己 的 网 站 ， 以 此 避免 向 CIA.gov 发 起 DoS 攻击 的 嫌疑 。 
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D nain 函数 必须 调用 执行 下 载 的 函数 ， 我 们 把 download_many 函数 当 作 参 数 传 给 main 函数 ， 
这 样 main 函数 可 以 用 作 库 函数 ， 在 后 面 的 示例 中 接收 download_many 函数 的 其 他 实现 。 























Kenneth Reitz 开发 的 requests 库 可 通过 PyPI 安装 (https://pypi.python.org/pypi/ 
requests), FE Python 3 标准 库 中 的 urllib.request 模块 更 易于 使 用 。 其 实 ， 
requests 库 提 供 的 API 更 符合 Python 的 习惯 用 法 ， 而 且 与 Python 2.6 及 以 上 
版 本 兼容 。 因 为 Python 2 中 删除 了 urllib2, Python 3 又 使 用 了 其 他 名 称 ， 所 
以 不 管 使 用 哪 一 版 Python， 使 用 requests 库 都 更 方便 。 























flags.py 脚本 中 没有 什么 新 知识 ， 只 是 与 其 他 脚本 对 比 的 基准 ， 而 且 我 把 它 作为 一 个 库 使 
用 ， 避 免 实 现 其 他 脚本 时 重复 编写 代码 。 下 面 分 析 使 用 concurrent. futures 模块 重新 实现 
的 版 本 。 


17.1.2 ”使 用 concurrent.futures 模 块 下 载 

concurrent. futures 模块 的 主要 特色 是 ThreadPooLExecutor 和 ProcessPoolExecutor 类 ,这 
两 个 类 实现 的 接口 能 分 别 在 不 同 的 线程 或 进程 中 执行 可 调用 的 对 象 。 这 两 个 类 在 内 部 维护 
着 一 个 工作 线程 或 进程 地 ， 以 及 要 执行 的 任务 队列 。 不 过 ， 这 个 接口 抽象 的 层级 很 高 ， 像 
下 载 国旗 这 种 简单 的 案例 ， 无 需 关 心 任何 实现 细节 。 

示例 17-3 展示 如 何 使 用 ThreadPooLExecutor .map 方法 ， 以 最 简单 的 方式 实现 并 发 下 载 。 




















示例 17-3 flags_threadpool.py: 使 用 futures.ThreadPooLExecutor 类 实现 多 线程 下 载 的 脚本 


from concurrent import futures 
from flags import save_flag, get_flag, show, main @ 


MAX_WORKERS = 20 @ 


def download_one(cc): © 
image = get_flag(cc) 
show(cc) 
save_flag(image, cc.lower() + '.gif') 
return cc 


def download_many(cc_list): 
workers = min(MAX_WORKERS, len(cc_list)) @ 
with futures.ThreadPoolExecutor(workers) as executor: @ 
res = executor.map(download_one, sorted(cc_list)) @ 


return len(list(res)) @ 


if _name == '_ main_': 
main(download_many) © 


O 重用 flags 模块 〈 见 示例 17-2) 中 的 儿 个 函数 。 
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@ 设 定 ThreadPooLExecutor 类 最 多 使 用 几 个 线程 。 

O 下 载 一 个 图 像 的 国 数 ， 这 是 在 各 个 线程 中 执行 的 函数 。 

O 设 定 工作 的 线程 数量 : 使 用 允许 的 最 大 值 (MAX_WORKERS) 与 要 处 理 的 数量 之 间 较 小 的 
那个 值 ， 以 免 创 建 多 余 的 线程 。 

全 使 用 工作 的 线程 数 实例 化 ThreadPoolExecutor 类 ; executor. exit 方法 会 调用 
executor .shutdown(wait=True) 方法 ， 它 会 在 所 有 线程 都 执行 完毕 前 阻塞 线程 。 

O nap 方法 的 作用 与 内 置 的 map 函数 类 似 ， 不 过 download_one 国 数 会 在 多 个 线程 中 并 发 调 

FAs map 方法 返回 一 个 生成 器 ， 因 此 可 以 和 迭代， 获取 各 个 函数 返回 的 值 。 

O 返回 获取 的 结果 数量 ， 如 果 有 线程 抛 出 异常 ， 异 常会 在 这 里 抛 出 ， 这 与 隐 式 调用 next() 
函数 从 迭代 器 中 获取 相应 的 返回 值 一 样 。 

© 调用 flags 模块 中 的 main 函数 ， 传 入 download_many 国 数 的 增强 版 。 


注意 ， 示 例 17-3 中 的 download_one 国 数 其 实 是 示例 17-2 中 download_many 国 数 的 for 循环 
体 。 编 写 并 发 代码 时 经 常 这 样 重 构 : 把 依 序 执行 的 for 循环 体 改 成 函数 ， 以 便 并 发 调用 。 


我 们 用 的 库 叫 concurrent.futures， 可 是 在 示例 17-3 中 没有 见 到 future， 因 此 你 可 能 想 知 
道 future 在 哪里 。 下 一 节 会 解答 这 个 问题 。 


17.1.3 future EHE 


future 是 concurrent. futures 模块 和 asyncio 包 的 重要 组 件 ， 可 是 ， 作 为 这 两 个 库 的 用 户 ， 
我 们 有 了 时 却 见 不 到 future, IWA 17-3 在 背后 用 到 了 future， 但 是 我 编写 的 代码 没有 直接 使 
用 。 这 一 节 概 述 future， 还 会 举 一 个 例子 ， 展 示 用 法 。 


从 Python 3.4 起 ， 标 准 库 中 有 两 个 名 为 Future 的 类 : concurrent.futures.Future 和 
asyncio.Future。 这 两 个 类 的 作用 相同 : 两 个 Future 类 的 实例 都 表示 可 能 已 经 完成 或 者 尚 
未 完成 的 延迟 计算 。 这 与 Twisted 引擎 中 的 Deferred 类 、Tornado 框架 中 的 Future 类 ,以 
及 多 个 JavaScript 库 中 的 Promise 对 象 类 似 。 


future 封装 待 完 成 的 操作 ， 可 以 放 入 队列 ， 完 成 的 状态 可 以 查询 ， 得 到 结果 (或 抛 出 异常 ) 
后 可 以 获取 结果 (或 异常 )。 


我 们 要 记 住 一 件 事 : 通常 情况 下 自己 不 应 该 创建 future， 而 只 能 由 并 发 框架 (concurrent. 
futures 或 asyncio) 实例 化 。 原 因 很 简单 : future 表示 终 将 发 生 的 事情 ， 而 确定 某 件 事 
会 发 生 的 唯一 方式 是 执行 的 时 间 已 经 排 定 。 因 此 ， 只 有 排 定 把 某 件 事 交 给 concurrent. 

futures.Executor 子 类 人 处理 时 ， 才 会 创建 concurrent.futures.Future 实例 。 例 如 ， 
Executor.submit() 方法 的 参数 是 一 个 可 调用 的 对 象 ， 调 用 这 个 方法 后 会 为 传 入 的 可 调用 对 
象 排 期 ， 并 返 回 一 个 future。 

客户 端 代码 不 应 该 改变 future 的 状态 ， 并 发 框架 在 future 表示 的 延迟 计算 结束 后 会 改变 
future 的 状态 ， 而 我 们 无 法 控制 计算 何 时 结束 。 
这 两 种 future 都 有 .done() 方法 ， 这 个 方法 不 阻塞, 返回 值 是 布尔 值 ， 指 明 future 链接 的 


可 调用 对 象 是 否 已 经 执行 。 客 户 端 代码 通常 不 会 询问 future 是 否 运 行 结束 ， 而 是 会 等 待 通 
知 。 因 些 ， 两 个 Future 类 都 有 .add_done_callback() 方法 : 这 个 方法 只 有 一 个 参数 ， 类 型 
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是 可 调用 的 对 象 ，future 运行 结束 后 会 调用 指定 的 可 调用 对 象 。 


此 外 ， 还 有 .resutt() 方法 。 在 future 运行 结束 后 调用 的 话 ， 这 个 方法 在 两 个 Future 类 
中 的 作用 相同 : 返回 可 调用 对 象 的 结果 ， 或 者 重新 抛 出 执行 可 调用 的 对 象 时 抛 出 的 异常 。 
可 是 ， 如 果 future 没有 运行 结束 ，result 方法 在 两 个 Future 类 中 的 行为 相差 很 大 。 对 
concurrency.futures.Future 实例 来 说 ， 调 用 f.result() 方法 会 阻塞 调用 方 所 在 的 线程 ， 
直到 有 结果 可 返回 。 此 时 ，result 方法 可 以 接收 可 选 的 timeout 参数 ， 如 果 在 指定 的 时 
间 内 future 没有 运行 完毕 ， 会 抛 出 TimeoutError 异常 。 读 到 18.1.1 节 你 会 发 现 ，asyncio. 
Future.result 方法 不 支持 设 定 超时 时 间 ， 在 那个 库 中 获取 future 的 结果 最 好 使 用 yield 
from 结构 。 不 过 ， 对 concurrency.futures.Future 实例 不 能 这 么 做 。 


这 两 个 库 中 有 几 个 函数 会 返回 future， 甚 他国 数 则 使 用 future， 以 用 户 易于 理解 的 方式 实现 自 
身 。 使 用 17-3 中 的 Executor.map 方法 属于 后 者 : 返回 值 是 一 个 迭代 器 ， 返 代 器 的 _next A 
法 调用 各 个 future 的 result 方法 ， 因 此 我 们 得 到 的 是 各 个 future 的 结果 ， 而 非 future 本 身 。 


为 了 从 实用 的 角度 理解 future， 我 们 可 以 使 用 concurrent.futures.as_compLeted 国 数 
(https://docs.python.org/3/library/concurrent.futures.html#concurrent.futures.as_completed) 重 写 
示例 17-3。 这 个 函数 的 参数 是 一 个 future 列表 ， 返 回 值 是 一 个 迭代 器 ， 在 future 运行 结束 
后 产 出 future。 


为 了 使 用 futures.as_completed 国 数 ， 只 需 修 改 download_many pK He, +E Re Hh RAY 
executor .map 调用 换 成 两 个 for 循环 : 一 个 用 于 创建 并 排 定 future， 另 一 个 用 于 获取 future 
的 结果 。 同 时 ， 我 们 会 添加 几 个 print 调用 ， 显示 运行 结束 前 后 的 future。 修 改 后 的 
download_many 函数 如 示例 17-4， 代 码 行 数 由 5 变 成 7， 不 过 现在 我 们 能 一 帘 神 秘 的 future 
了 。 其 他 函数 不 变 ， 与 示例 17-3 中 的 一 样 。 


示例 17-4 flags_threadpool ac.py: 把 download_many 函数 中 的 executor.map 方 法 换 成 
executor.submit 方法 和 futures.as_completed 函数 




























































































def download_many(cc_list): 
cc_list = cc_list[:5] @ 
with futures.ThreadPoolExecutor(max_workers=3) as executor: @ 
to_do = [] 
for cc in sorted(cc_list): © 
future = executor.submit(download_one, cc) @ 
to_do.append(future) @ 
msg = 'Scheduled for {}: {}' 
print(msg.format(cc, future)) @ 


results = [] 

for future in futures.as_completed(to_do): @ 
res = future.result() O 
msg = '{} result: {!r}' 
print(msg.format(future, res)) © 
results.append(res) 


return Len(results) 
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O 这 次 演示 只 使 用 人 口 最 多 的 5 个 国家 。 

@ 把 max_workers 硬 编码 为 3， 以便 在 输出 中 观察 待 完 成 的 future。 

© 按照 字母 表 顺 序 迭 代 国 家 代码 ， 明 确 表 明 输 出 的 顺序 与 输入 一 致 。 

© executor .submit 方法 排 定 可 调用 对 象 的 执行 时 间 ， 然 后 返回 一 个 fature， 表 示 这 个 待 执 
行 的 操作 。 

© 存储 各 个 future， 后 面 传 给 as_completed 国 数 。 

O 显示 一 个 消息 ， 包 含 国家 代码 和 对 应 的 future, 

@ as_completed 国 数 在 future 运行 结束 后 产 出 future, 

O 获取 该 future 的 结果 。 

© 显示 future 及 其 结果 。 


注意 ， 在 这 个 示例 中 调用 future.result() 方法 绝 不 会 阻塞， 因为 future H as_completed 
函数 产 出 。 运 行 示例 17-4 得 到 的 输出 如 示例 17-5 所 示 。 














示例 17-5 ”flags_threadpool_ac.py 脚本 的 输出 
$ python3 flags_threadpool_ac.py 
Scheduled for BR: <Future at 0x100791518 state=running> @ 
Scheduled for CN: <Future at 0x100791710 state=running> 
Scheduled for ID: <Future at 0x100791a90 state=running> 
Scheduled for IN: <Future at 0x101807080 state=pending> @ 
Scheduled for US: <Future at 0x101807128 state=pending> 
CN <Future at 0x100791710 state=finished returned str> result: 'CN' © 
BR ID <Future at 0x100791518 state=finished returned str> result: 'BR' @ 
<Future at 0x100791a90 state=finished returned str> result: 'ID' 
IN <Future at 0x101807080 state=finished returned str> result: 'IN' 
US <Future at 0x101807128 state=finished returned str> result: 'US' 


5 flags downloaded in 0.70s 


O 排 定 的 future 按 字 母 表 排序 ，future 的 repr() 方法 会 显示 future 的 状态 : 前 三 个 future 
的 状态 是 running， 因 为 有 三 个 工作 的 线程 。 

O 后 两 个 future 的 状态 是 pending， 等 待 有 线程 可 用 。 

O 这 一 行 里 的 第 一 个 CN 是 运行 在 一 个 工作 线程 中 的 download_one 函数 输出 的 ， 随 后 的 内 
容 是 download_many 函数 输出 的 。 

O 这 里 有 两 个 线程 输出 国家 代码 ， 然 后 主线 程 中 的 download_many 函数 输出 第 一 个 线程 的 
结果 。 


1 














多 次 运行 flags_threadpool_ac.py 脚本 ， 看 到 的 结果 有 所 不 同 。 如 果 把 max 
workers 参数 的 值 增 大 到 5， 结 果 的 顺序 变化 更 多 。 把 max_workers 参数 的 值 
设 为 1， 代 码 依 序 运行 ， 结 果 的 顺序 始终 与 调用 submit 方法 的 顺序 一 致 。 














我 们 分 析 了 两 个 版 本 的 使 用 concurrent.futures 库 实 现 的 下 载 脚本 : 使 用 ThreadPoolExecutor. 
map 方法 的 示例 17-3 和 使 用 futures.as_completed 函数 的 示例 17-4。 如 果 你 对 flags_asyncio.py 
脚本 的 代码 好 奇 ， 可 以 看 一 眼 第 18 章 中 的 示例 18-5。 








使 用 future 处 理 并 发 | 423 


严格 来 说 ， 我 们 目前 测试 的 并 发 脚本 都 不 能 并 行 下 载 。 使 用 concurrent. futures 库 实现 的 

那 两 个 示例 受 GIL (Global Interpreter Lock， 全 局 解释 器 锁 ) 的 限制 ， 而 flags_asyncio.py 

脚本 在 单个 线程 中 运行 。 

读 到 这 里 ， 你 可 能 会 对 前 面 做 的 非 正规 基准 测试 有 下 述 疑 问 。 

。 既然 Python 线程 受 GIL 的 限制 ,任何 时 候 都 只 允许 运行 一 个 线程 ， 那 么 flags_ 
threadpool.py 脚本 的 下 载 速度 怎么 会 比 flags.py 脚本 快 5 倍 ? 

e flags_asyncio.py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎么 会 比 后 者 快 5 倍 ? 

第 二 个 问题 在 18.3 节 解 答 。 


GIL 几乎 对 IO 密集 型 处 理 无 害 ， 原 因 参 见 下 一 节 。 


17.2 ”阻塞 型 MO 和 GIL 


CPython 解释 器 本 身 就 不 是 线程 安全 的 ， 因 此 有 全 局 解释 器 锁 (GIL)， 一 次 只 允许 使 用 一 
个 线程 执行 Python 字 节 码 。 因 此 ， 一 个 Python 进程 通常 不 能 同时 使 用 多 个 CPU 核心 。” 
编写 Python 代码 时 无 法 控制 GIL; 不 过 ， 执 行 耗 时 的 任务 时 ， 可 以 使 用 一 个 内 置 的 国 数 
或 一 个 使 用 C 语言 编写 的 扩展 释放 GIL。 其 实 ， 有 个 使 用 C 语言 编写 的 Python 库 能 管理 
GIL， 自 行 启动 操作 系统 线程 ， 利 用 全 部 可 用 的 CPU 核心 。 这 样 做 会 极 大 地 增加 库 代 码 的 
复杂 度 ， 因 此 大 多 数 库 的 作者 都 不 这 么 做 。 

然而 ， 标 准 库 中 所 有 执行 阻塞 型 IO 操作 的 函数 ， 在 等 待 操作 系统 返回 结果 时 都 会 释放 
GIL。 这 意味 着 在 Python 语言 这 个 层次 上 可 以 使 用 多 线程 ， 而 IO 密集 型 Python 程序 能 从 
中 受益 : 一 个 Python 线程 等 待 网 络 响应 时 ， 阻 塞 型 VO 函数 会 释放 GIL， 再 运行 一 个 线程 。 
因此 David Beazley 才 说 :“Python 线程 毫 无 作用 。 ° 


Python 标准 库 中 的 所 有 阻塞 型 IO 函数 都 会 释放 GIL， 人 允许 其 他 线程 运行 。 
time.sleep() 国 数 也 会 释放 GIL。 因 此 ， 尽 管 有 GIL, Python 线程 还 是 能 在 
VO 密集 型 应 用 中 发 挥 作 用 。 

















\ 

































































A fe] PL] anny Ze, CPU 密集 型 作业 中 使 用 concurrent. futures 模块 轻松 绕 开 GIL, 


17.3 ”使 用 concurrent.futures 模 块 启动 进程 


concurrent.futures 模块 的 文档 (https://docs.python.org/3/library/concurrent.futures.html) 副 
标题 是 “Launching parallel tasks”( 执 行 并 行 任 务 )。 这 个 模块 实现 的 是 真正 的 并 行 计算 ， 


= 














注 4: 这 是 CPython 解释 器 的 局 限 ， 与 Python 语言 本 身 无 关 。Jython 和 IronPython 没有 这 种 限制 。 不 过 ， 
目前 最 快 的 Python 解释 器 PyPy 也 有 GIL。 
注 5: 出 自 “Generators: The Final Frontier”(http://www.dabeaz.com/finalgenerator/)， 第 106 张 幻灯 片 。 
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因为 它 使 用 ProcessPooLExecutor 类 把 工作 分 配给 多 个 Python 进程 处 理 。 因 此 ， 如 果 需 要 
做 CPU 密集 型 处 理 ， 使 用 这 个 模块 能 绕 开 GIL， 利 用 所 有 可 用 的 CPU 核心 。 
ProcessPooLExecutor 和 ThreadPooLExecutor 类 都 实现 了 通用 的 Executor 接口 ， 因 此 使 用 
concurrent. futures 模块 能 特别 轻松 地 把 基于 线程 的 方案 转 成 基于 进程 的 方案 。 

下 载 国旗 的 示例 或 其 他 IO 密集 型 作业 使 用 ProcessPooLExecutor 类 得 不 到 任何 好 处 。 这 一 
点 易于 验证 ， 只 需 把 示例 17-3 中 下 面 这 几 行 : 


def download_many(cc_list): 
workers = min(MAX_WORKERS, len(cc_list)) 
with futures. ThreadPoolExecutor(workers) as executor: 



































改 成 : 


def download_many(cc_list): 
with futures.ProcessPoolExecutor() as executor: 


对 简单 的 用 途 来 说 ， 这 两 个 实现 Executor 接口 的 类 唯一 值得 注意 的 区 别 是 ，ThreadPool 
Executor. _init_ 方法 需要 max_workers 参 数 ， 指 定 线 程 池 中 线程 的 数量 。 在 
ProcessPoolExecutor 类 中 ， 那 个 参数 是 可 选 的 ， 而 且 大 多 数 情 况 下 不 使 用 一 一 默认 值 是 
os.cpu_count() PK XOR E ÁJ CPU 数量 。 这 样 处 理 说 得 通 ， 因 为 对 CPU 密集 型 的 处 理 来 
说 ， 不 可 能 要 求 使 用 超过 CPU 数量 的 职 程 。 而 对 IO 密集 型 处 理 来 说 ， 可 以 在 一 个 
ThreadPoolExecutor 实例 中 使 用 10 个 、100 个 或 1000 个 线程 ， 最 佳 线程 数 取决 于 做 的 是 
什么 事 ， 以 及 可 用 内 存 有 多 少 ， 因 此 要 仔细 测试 才能 找到 最 佳 的 线程 数 。 


经 过 几 次 测试 ， 我 发 现 使 用 ProcessPooLExecutor 实例 下 载 20 面 国旗 的 时 间 增 加 到 了 1.8 
秒 ， 而 原来 使 用 ThreadPooLExecutor 的 版 本 是 1.4 秒 。 主 要 原因 可 能 是 ， 我 的 电脑 用 的 是 
四 核 CPU， 因 此 限制 只 能 有 4 个 并 发 下 载 ， 而 使 用 线程 池 的 版 本 有 20 个 工作 的 线程 。 


ProcessPoolExecutor 的 价值 体现 在 CPU 密集 型 作业 上 。 我 用 两 个 CPU 密集 型 脚本 做 了 一 
些 性 能 测试 。 
arcfour_futures.py 


这 个 脚本 (代码 清单 参见 示例 A-7) 纯粹 使 用 Python 实现 RC4 算法 。 我 加 密 并 解密 了 
12 个 字 节 数组 ， 大 小 从 149KB 到 384KB 不 等 。 

































































sha_futures.py 
这 个 脚本 (代码 清单 参见 示例 A-9) 使 用 标准 库 中 的 hashlib 模块 (使 用 OpenSSL 库 实 
BL) 实现 SHA-256 算法 。 我 计算 了 12 个 IMB 字 节 数组 的 SHA-256 散 列 值 。 
这 两 个 脚本 除了 显示 汇总 结果 之 外 ， 没 有 使 用 WO。 构 建 和 处 理 数 据 的 过 程 都 在 内 存 中 完 
成 ， 因 此 IO 对 执行 时 间 没 有 影响 。 
我 运行 了 64 次 RC4 示例 ，48 次 SHA 示例 ， 平 均 时 间 如 表 17-1 所 示 。 统 计 的 时 间 中 包含 
派生 工作 进程 的 时 间 。 
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表 17-1: 在 配 有 Intel Core i7 2.7 GHz 四 核 CPU 的 设备 中 ， 使 用 Python 3.4 运 行 RC4 和 SHA 
示例 ， 分 别 使 用 1~4 个 职 程 得 到 的 时 间 和 提速 倍数 
ERM ”运行 RC4 示 例 的 时 间 。” RC4 示 例 的 提速 信 数 ”运行 SHA 示 例 的 时 间 ” SHA 示例 的 提速 信 数 





1 11.48s 1.00 x 22.66s 1.00 x 
2 8.65s 1.33 x 14.90s 1.52 x 
3 6.04s 1.90 x 11.91s 1.90 x 
4 5.58s 2.06 x 10.89s 2.08 x 

















可 以 看 出 ， 对 加 密 算法 来 说 ， 使 用 ProcessPoolExecutor 类 派生 4 个 工作 的 进程 后 (如果 
有 4 个 CPU 核心 的 话 )， 性 能 可 以 提高 两 倍 。 
对 那个 纯粹 使 用 Python 实现 的 RC4 示 例 来 说 ， 如 果 使 用 PyPy 和 4 个 职 程 ， 与 使 用 
CPython 和 4 个 职 程 相 比 ， 速 度 能 提高 3.8 倍 。 以 表 17-1 中 使 用 CPython 和 一 个 职 程 的 运 
行 时 间 为 基准 ， 速 度 提升 了 7.8 倍 。 
如 果 使 用 Python 处 理 CPU 密集 型 工作 ， 应 该 试 试 PyPy (http://pypy.org)。 
使 用 PyPy 运行 arcfour_futures.py 脚本 ， 速 度 快 了 3.8~5.1 倍 ， 具体 的 倍数 由 
职 程 的 数量 决定 。 我 测试 时 使 用 的 是 PyPy 2.4.0， 这 一 版 与 Python 3.2.5 3 
容 ， 因 此 标准 库 中 有 concurrent.futures 模块 。 


























过 一 个 演示 程序 来 研究 线程 池 的 行为 。 这 个 程序 会 创建 一 个 包含 3 个 职 程 的 线程 
行 5 个 可 调用 的 对 象 ， 输 出 带 有 时 间 发 的 消息 。 


17.4 ”实验 Executor .map 方 法 


若 想 并 发 运行 多 个 可 调用 的 对 象 ， 最 简单 的 方式 是 使 用 示例 17-3 中 见 过 的 Executor .map 
方法 。 示例 17-6 中 的 脚本 演示 了 Executor .map 方法 的 某 些 运作 细节 。 这 个 脚本 的 输出 在 
示例 17-7 中 。 

















示例 17-6 demo_executor_map.py: 简单 演示 ThreadPoolExecutor 类 的 map 方法 


from time import sleep, strftime 
from concurrent import futures 


def display(*args): @ 
print(strftime('[%H:%M:%S]'), end=' ') 
print(*args) 


= 


def loiter(n): @ 

msg = '{}loiter({}): doing nothing for {}s...' 
display(msg.format('\t'*n, n, n)) 

sleep(n) 

msg = '{}loiter({}): done.' 
display(msg.format('\t'*n, n)) 

return n * 10 
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def main(): 


display('Script starting. ') 

executor = futures. ThreadPoolExecutor(max_workers=3) @ 
results = executor.map(loiter, range(5)) @ 
display('results:', results) 


display('Waiting for 


individual results:') 


for i, result in enumerate(results): @ 
display('result {}: {}'.format(i, result)) 


main() 


O 这 个 函数 的 作用 很 简单 ， 
iA) ek. 











巴 传 入 的 参数 打印 出 来 ， 并 在 前 面 加 上 [HH:MM:SS] 格式 的 时 











@ loiter 函数 什么 也 没 做 ， 只 是 在 开始 时 显示 一 个 消息 ， 然 后 休眠 n 秒 ， 最 后 在 结束 时 























再 显示 一 个 消息 ， 消 息 使 用 制 表 符 缩 进 ， 缩 进 的 量 由 的 值 确定 。 





© loiter 函数 返回 n * 10， 以 便 让 我 们 了 解 收集 结果 的 方式 。 





=. 





@f 


建 ThreadPoolExecutor 实例 ， 有 3 个 线程 。 





O 把 五 个 任务 提交 给 executor (因为 只 有 3 个 线程 ， 所 以 只 有 3 个 任务 会 立即 开始 : 
loiter(0), loiter(1) 和 loiter(2)) ;这 是 非 阻塞 调用 。 

O 立即 显示 调用 executor .map 方法 的 结果 : 一 个 生成 器 ， 如 示例 17-7 中 的 输出 所 示 。 

@ for 循环 中 的 enumerate 函数 会 隐 式 调用 next(results)， 这 个 函数 又 会 在 (内 部 ) 表示 





第 一 个 任务 (loiter(0)) 





直到 future 运行 结束 ， 因 此 这 个 循环 每 次 迭代 时 都 要 等 待 下 一 个 结果 做 好 准备 。 














的 _f future 上 调用 _f.result() 方法 。result 方法 会 阻塞 ， 























我 建议 你 运行 示例 17-6， 看 着 结果 逐渐 显示 出 来 。 此 外 ， 还 可 以 修改 ThreadPooLExecutor 


构造 方法 的 max_workers 参数 
选 几 个 值 ， 以 列表 的 形式 传 给 


， 以 及 executor.map 方法 中 range 函数 的 参数 ， 或 者 自己 挑 
map 方法 ， 得 到 不 同 的 延迟 。 








示例 17-7 是 运行 示例 17-6 得 到 的 输出 示例 。 


示例 17-7 示例 17-6 中 demo_executor_map.py 脚本 的 运行 示例 
$ python3 demo_executor_map.py 
[15:56:50] Script starting. @ 
[15:56:50] loiter(@): doing nothing for 0s... @ 
[15:56:50] loiter(0): done. 
[15:56:50] loiter(1): doing nothing for 1s... © 
[15:56:50] loiter(2): doing nothing for 2s... 
[15:56:50] results: <generator object result_iterator at 0x106517168> @ 


[15:56:50] 


loiter(3): doing nothing for 3s... O 


[15:56:50] Waiting for individual results: 
[15:56:50] result 0: 0 O 
[15:56:51] loiter(1): done. @ 


[15:56:51] 


loiter(4): doing nothing for 4s... 


[15:56:51] result 1: 10 O 
[15:56:52] loiter(2): done. © 


[15:56:52] result 2: 20 
[15:56:53] 


loiter(3): done. 
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[15:56:53] result 3: 30 
[15:56:55] loiter(4): done. @ 
[15:56:55] result 4: 40 


O 这 次 运行 从 15:56:50 开始 。 

O 第 一 个 线程 执行 Lotter(90)， 因 此 休眠 0 秒 ， 甚 至 会 在 第 二 个 线程 开始 之 前 就 结束 ， 不 
过 具体 情况 因 人 而 异 。” 

© loiter(1) 和 loiter(2) 立即 开始 (因为 线程 池 中 有 三 个 职 程 ， 可 以 并 发 运行 三 个 函 
数 )。 

O 这 一 行 表 明 ，executor .map 方法 返回 的 结果 (results) 是 生成 器 ;不管 有 多 少 任务 ， 
也 不 管 max_workers 的 值 是 多 少 ， 目 前 不 会 阻塞 。 

O loiter(0) 运行 结束 了 ， 第 一 个 职 程 可 以 启动 第 四 个 线程 ， 运 行 loiter(3)。 

© 此 时 执行 过 程 可 能 阻塞, 具体 情况 取决 于 传 给 loiter 函数 的 参数 :results 生成 器 的 
next 方法 必须 等 到 第 一 个 future 运行 结束 。 此 时 不 会 阻塞 ， 因 为 loiter(9) 在 循环 
开始 前 结束 。 注 意 ， 这 一 点 之 前 的 所 有 事件 都 在 同一 刻 发 生 一 一 15:56:50。 

© 一 秒 钟 后 ， 即 15:56:51, loiter(1) 运行 完毕 。 这 个 线程 闲置 ， 可 以 开始 运行 
loiter(4), 

© 显示 loiter(1) 的 结果 : 10. ME, for 循环 会 阻塞 ， 等 待 loiter(2) 的 结果 。 

© 同上 : loiter(2) 运行 结束 ， 显 示 结 果 ; loiter(3) 也 一 样 。 

© 2 秒 钟 后 loiter(4) 运行 结束 ， 因 为 loiter(4) 在 15:56:51 时 开始 ， 休 眠 了 4 Pb, 


Executor .map 国 数 易于 使 用 ， 不 过 有 个 特性 可 能 有 用 ， 也 可 能 没 用 ， 有 具体 情况 取决 于 需 
求 : 这 个 函数 返回 结果 的 顺序 与 调用 开始 的 顺序 一 致 。 如 果 第 一 个 调用 生成 结果 用 时 10 
秒 ， 而 其 他 调用 只 用 1 秒 ， 代 码 会 阻塞 10 秒 ， 获 取 map 方法 返回 的 生成 器 产 出 的 第 一 个 
结果 。 在 此 之 后 ， 获 取 后 续 结果 时 不 会 阻塞 ， 因 为 后 续 的 调用 已 经 结束 。 如 果 必 须 等 到 获 
取 所 有 结果 后 再 处 理 ， 这 种 行为 没 问题 ， 不 过 ， 通 常 更 可 取 的 方式 是 ， 不 管 提 交 的 顺序 ， 
只 要 有 结果 就 获取 。 为 此 ， 要 把 Executor.submit 方法 和 futures.as_completed 函数 结合 
起 来 使 用 ， 像 示例 17-4 中 那样 。17.5.2 节 会 继续 讨论 这 种 方式 。 









































executor.submit 和 futures.as_completed 这 个 组 合 比 executor.map 更 灵活 ， 
因为 submit 方法 能 处 理 不 同 的 可 调用 对 象 和 参数 ， 而 executor .map 只 能 处 
理 参数 不 同 的 同一 个 可 调用 对 象 。 此 外 ， 传 给 futures.as_completed 函数 的 
future 集合 可 以 来 自 多 个 Executor 实例 ， 例 如 一 些 由 ThreadPooLExecutor 实 
例 创建 ， 另 一 些 由 ProcessPooLExecutor 实例 创建 。 




















下 一 节 根 据 新 的 需求 继续 实现 下 载 国 旗 的 示例 ， 这 一 次 不 使 用 executor.map H, Mek 
{È futures.as_completed 函数 返回 的 结果 。 


























注 6: 具体 情况 因 人 而 异 : 对 线程 来 说 ， 你 永远 不 知道 某 一 时 刻 事 件 的 具体 排序 ， 有 可 能 在 另 一 台 设 备 中 会 
看 到 loiter(1) 在 loiter (0) 结束 之 前 开始 , 这 是 因为 sleep 函数 总 会 释放 GIL. FAL, 即使 休眠 0 秒 ， 
Python 也 可 能 会 切换 到 另 一 个 线程 。 
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17.5 “显示 下 载 进 度 并 处 理 错误 


前 面 说 过 ，17.1 节 中 的 几 个 脚本 没有 处 理 错误 ， 这 样 做 是 为 了 便于 阅读 和 比较 三 种 方案 

( 依 序 、 多 线程 和 异步 ) 的 结构 。 

为 了 处 理 各 种 错误 ， 我 创建 了 flags2 系列 示例 。 

flags2_common.py 
这 个 模块 中 包含 所 有 flags2 示例 通用 的 函数 和 设置 ， 例 如 main 函数 ， 负 责 解析 命令 行 
参数 、 计 时 和 报告 结果 。 这 个 脚本 中 的 代码 其 实 是 提供 支持 的 ， 与 本 章 的 话题 没有 直接 
关系 ， 因 此 我 把 源码 放 在 附录 A 里 的 示例 A-10 中 。 

flags2_sequential.py 


能 正确 处 理 错误 ， 以 及 显示 进度 条 的 HTTP 依 序 下 载 客 户 端 。flags2_threadpool.py 脚本 
会 用 到 这 个 模块 里 的 download_one 函数 。 


flags2_threadpool.py 


基于 futures.ThreadPooLExecutor 类 实现 的 HTTP 并 发 客户 端 ， 演 示 如 何 处 理 错误 ， 以 


flags2_asyncio.py 


与 前 一 个 脚本 的 作用 相同 ， 不 过 使 用 asyncio 和 aiohttp 实现 。 这 个 脚本 在 第 18 章 的 
18.4 节 中 分 析 。 


测试 并 发 客户 端 时 要 小 心 

在 公开 的 HTTP 服务 器 上 测试 HTTP 并 发 客户 端 时 要 小 心 ， 因 为 每 秒 可 能 会 
发 起 很 多 请 求 ， 这 相当 于 是 拒绝 服务 (DoS) 攻击 。 我 们 不 想 攻 击 任何 人 ， 只 
是 在 学 习 如 何 开发 高 性 能 的 客户 端 。 访 问 公开 的 服务 器 时 一 定 要 管 好 自己 的 
客户 端 。 做 高 并 发 试验 时 ， 应 该 在 本 地 架设 HTTP 服务 器 供 测 试 。 本 书 代 码 
仓库 中 的 17-futures/countries/ 目录 里 有 个 README.rst 文件 (https://github.com/ 
fluentpython/example-code/blob/master/17-futures/countries/README.rst)， 那 里 有 
架设 说 明 。 













































































flags2 系列 示例 最 明显 的 特色 是 ， 有 使 用 TQDM 包 (https://github.com/noamraph/tqdm ) 
实现 的 文本 动画 进度 条 。 我 在 YouTube 上 发 布 了 一 个 108 秒 的 视频 (https://www.youtube. 
com/watch?v=M8Z65tA1514)， 展 示 了 这 个 进度 条 ， 还 对 比 了 三 个 flags 脚本 的 下 载 速度 。 
在 那个 视频 中 ， 我 先 运行 依 序 下 载 的 脚本 ， 不 过 32 秒 后 中 断 了 ， 因 为 那个 脚本 要 用 5 分 
多 钟 访问 676 个 URL， 下 载 194 面 国旗 ， 然后， 我 分 别 运 行 多 线程 和 asyncio 版 三 次 ， 
每 次 都 在 6 秒 之 内 (MET 60 多 倍 ) 完成 任务 。 图 17-1 中 有 两 个 截图 ， 分 别 是 flags2_ 
threadpool.py 脚本 运行 中 和 运行 结束 后 。 
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(.venv34) Lontra:countries Luciano$ python3 flags2_threadpool.py -s ERROR -e -m 10 
ERROR site: http://LocaLhost : 8003/flags 
Searching for 676 flags: from AA to ZZ 
1@ concurrent connections will be used. 

| 300/676 44% [elapsed: 00:08 left: 00:10, 36.17 iters/sec]] 





(.venv34) Lontra:countries Luciano$ python3 flags2_threadpool.py -s ERROR -e -m 10 


ERROR site: http://localhost : 8003/flags 
Searching for 676 flags: from AA to ZZ 
10 concurrent connections will be used. 


147 flags downloaded. 
360 not found. 
169 errors. 

Elapsed time: 18.10s 
(.venv34) lontra:countries Luciano$ 目 











17-1: (AE) flags2_threadpool.py 运行 中 ， 


窗口 ， 脚 本 运 


支行 完毕 后 











TQDM 包 特 别 ! 


blob/master/README.md) 中 有 个 GIF 动画 , 演示 了 最 简单 的 用 法 。 安 装 tqd 包 之 后 ，’ 在 


Python 控制 台中 输入 下 述 代码 ， 会 在 注释 那里 看 到 进度 条 动画 : 





于 使 月 





>>> import time 
>>> from tqdm import tqdm 
>>> for i in tqdm(range(1000)): 

time.sleep(.01) 


H, m 





显示 着 tqdm 包 生 成 的 进度 条 ;( 右 下 ) 同一 个 终 i 


目的 README.md 文件 (https://github. en de ae 
































>>> # -> 进度 条 会 出 现在 这 里 <- 


除了 这 个 灵巧 的 效果 之 外 ，tqdm 函数 的 实现 方式 也 很 有 趣 : 能 处 理 任 何 可 迭代 的 对 


成 一 个 迭代 器 


i 





completed 函数 (https://docs. python. org/3/library/asyncio-task.html#asyncio.as_completed) , 
tqdm 国 数 才能 在 每 个 future 运 





计算 预计 剩余 时 间 ， 


tqdn 国 数 要 歼 取 一 个 








; 使 用 这 个 迭代 器 时 ， 显 示 进 度 条 和 完成 全 部 迭代 预计 的 剩余 时 间 。 
能 使 用 Len 函数 确定 大 小 的 可 迭代 对 象 ， 或 者 











Flags2 I aA adie 


意 一 个 脚本 时 指定 


选项 就 能 


























在 第 二 个 参数 中 指定 预期 的 元 素数 量 。 借 助 厂 
深入 了 解 这 几 个 脚本 的 运作 方式 ， 





三 

















运行 结束 后 更 新 ; 














进度 。 




















$ python3 flags2_threadpool.py -h 
usage: flags2_threadpool.py [-h] [-a] [-e] [-l N] [-m CONCURRENT] [-s LABEL] 
[-v] 




















TE 7: 可 以 使 用 pip install tqdm 命 


[cc [cc .. 


ADF 


令 安装 


装 tqdm 包 。 


提供 了 命令 行 接口 。 三 个 脚本 接受 的 选项 相同 ， 
到 所 有 选 


示例 17-8 flLags2 系列 脚本 的 帮助 界 正 





项 。 示例 17-8 显示 的 是 帮助 文本 。 


J] 


一 一 编者 注 




















象 ， 生 
为 了 


E flags2 系列 示例 中 集成 TQDM， 我 们 可 以 
为 我 们 必须 使 用 futures.as_completed pK% 
docs.python.org/3/library/concurrent.futures.html#concurrent.futures.as_completed) 和 asyncio.as 


(https:// 


这 样 


运行 任 





A 
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Download flags for country codes. Default: top 20 countries by population. 


positional arguments: 
cc country code or 1st letter (eg. B for BA...BZ) 


optional arguments: 


-h, --help show this help message and exit 

-a, --all get all available flags (AD to ZW) 

-e, --every get flags for every possible code (AA...ZZ) 
-L N, --limit N limit to N first codes 


-m CONCURRENT, --max_req CONCURRENT 
maximum concurrent requests (default=30) 

-s LABEL, --server LABEL 
Server to hit; one of DELAY, ERROR, LOCAL, REMOTE 
(default=LOCAL) 

-v, --verbose output detailed progress info 


所 有 选项 都 是 可 选 的 。 下 面 说 明 最 重要 的 选项 。 

不 能 忽略 的 选项 是 -s/--server: 用 于 选择 测试 时 使 用 的 HTTP 服务 器 和 基 URL。 这 个 选 
项 的 值 可 以 设 为 下 述 4 个 字符 串 (不 区 分 大 小 写 ) ， 用 于 确定 脚本 从 哪里 下 载 国旗 。 

LOCAL 


使 用 http: //localhost:8001/flags; 这 是 默认 值 。 你 应 该 配置 一 个 本 地 HTTP 服务 器 ， 
响应 8001 端口 的 请 求 。 我 测试 时 使 用 Nginx。 本 章 示 例 代 码 中 的 README.rst 文件 
(https://github.com/fluentpython/example-code/blob/master/17-futures/countries/README. 
rst) 说 明了 如 何 安装 和 配置 Nginx。 


REMOTE 


使 用 http://flupy.org/data/flags; 这 是 我 搭建 的 公开 网 站 ， 托 管 在 一 个 共享 服务 器 
中 。 请 不 要 使 用 太 多 并 发 请 求 访问 这 个 网 站 。flupy.org 域名 由 Cloudflare CDN (http:// 
www.cloudflare.com/) 的 一 个 免费 账户 管理 ， 因 此 第 一 次 下 载 时 会 发 现 很 慢 ， 不 过 一 旦 
CDN 有 了 缓存 ， 速 度 就 会 变 快 。” 

DELAY 
使 用 http://localhost:8002/flags; 这 是 一 个 代理 ， 会 延迟 HTTP 啊 应 ， 监 听 的 端口 
是 8002。 我 在 本 地 的 Nginx 服务 器 前 加 上 了 Mozilla Vaurien， 以 此 引入 延迟 。 前 面 提 到 
的 那个 README.rst 文件 (https://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/README. rst) 中 有 运行 Vaurien 代理 的 说 明 。 



















































































ERROR 


使 用 http://localhost:8003/flags; 这 是 一 个 代理 ， 监 听 8003 端口 ， 引 入 了 HTTP 错 
误 ， 并 延迟 响应 。 这 个 服务 器 使 用 的 Vaurien 配置 与 前 面 不 同 。 











TE 8: 测试 这 些 脚 本 时 ， 我 向 那个 廉价 的 虚拟 主机 发 起 了 一 些 并 发 请 求 ， 但 是 得 到 的 响应 是 “HTTP 503 
errors—Service Temporarily Unavailable”。 后 来 我 配置 了 Cloudflare， 现 在 没有 这 个 错误 了 。 
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仅 当 在 本 地 架设 HTTP 服务 器 ， 并 且 监 听 8001 端口 时 ， 才 能 使 用 LOCAL 选项 。 
DELAY 和 ERROR 选项 需要 代理 ， 分 别 监听 8002 和 8003 端口 。 在 GitHub 上 本 
书 的 代码 仓库 中 有 个 17-futures/countries/README.rst 文件 (https://github.com/ 























fluentpython/example-code/blob/master/17-futures/countries/README.rst), iH T 
如 何 配置 Nginx 和 Mozilla Vaurien， 以 实现 这 些 选 项 的 要 求 。 


默认 情况 下 ， 各 个 flags? 脚本 会 使 用 默认 的 并 发 连接 数 (各 脚本 有 所 不 同 ) 从 LOCAL 服务 


Dm 


fir 

















(http://localhost:8001/flags) 中 下 载 人 口 最 多 的 20 个 国家 的 国旗 。 示 例 17-9 是 全 部 使 用 


默认 值 运行 fags2_sequential.py 脚本 得 到 的 输出 。 


示例 17-9 全 部 使 用 默认 值 运行 flags2_sequential.py 脚本 : LOCAL 服务 器 ， 人 口 最 多 的 20 


国 国 旗 ，1 个 并 发 连接 
$ python3 flags2_sequential.py 
LOCAL site: http://localhost:8001/flags 
Searching for 20 flags: from BD to VN 
1 concurrent connection will be used. 
20 flags downloaded. 
Elapsed time: 0.10s 











我 们 可 以 使 用 多 种 不 同 的 方式 选择 下 载 哪些 国家 的 国旗 。 示 例 17-10 展示 如 何 下 载 国家 代 
人 码 以 字母 A、B 或 C 开头 的 所 有 国旗 。 





示例 17-10 ”运行 flags2_threadpool.py 脚本 ， 从 DELAY 服务 器 中 下 载 国家 代码 以 A、B 或 


C 开头 的 所 有 国旗 


$ python3 flags2_threadpool.py -s DELAY abc 
DELAY site: http://localhost:8002/flags 
Searching for 78 flags: from AA to CZ 

30 concurrent connections will be used. 

43 flags downloaded. 

35 not found. 

Elapsed time: 1.72s 





不 管 使 用 什么 方式 选择 国家 代码 ， 下 载 的 国旗 数量 都 可 以 使 用 -LU/- -Linit 选项 限制 。 示 例 
17-11 演示 如 何 发 起 100 个 请 求 ， 结 合 -a 和 -1 选项 下 载 100 面 国旗 。 





示例 17-11 运行 flags2_asyncio.py 脚本 ,使 用 100 个 并 发 请 求 (-m 100) 从 ERROR 服务 


以 上 是 flags2 AJRA AAP 


器 中 下 载 100 面 国旗 (-al 100) 


$ python3 flags2_asyncio.py -s ERROR -al 100 -m 100 
ERROR site: http://localhost:8003/flags 

Searching for 100 flags: from AD to LK 

100 concurrent connections will be used. 

73 flags downloaded. 

27 errors. 

Elapsed time: 0.64s 











下 面 分 析 实 现 方式 。 





o 
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17.5.1 flLags2 系 列 示例 处 理 错 误 的 方式 


这 三 个 示例 在 负责 下 载 一 个 文件 的 函数 (download_one) 中 使 用 相同 的 策略 处 理 HTTP 404 
错误 (未 找到 )。 其 他 异常 则 向 上 冒 泡 ， 交 给 download_many 函数 处 理 。 


我 们 还 是 先 分 析 依 序 下 载 的 代码 ， 因 为 这 些 代码 更 易于 理解 ， 而 且 使 用 线程 池 的 脚本 重用 
了 这 里 的 大 部 分 代码 。 示 例 17-12 列 出 的 是 flags2_sequential.py 和 flags2_threadpool.py 脚 
本 真正 用 于 下 载 的 函数 。 


示例 17-12 ”flags2_sequential.py: 负责 下 载 的 基本 函数 ，flags2_threadpool.py 脚本 重用 了 
这 两 个 函数 
def get_flag(base_url, cc): 

url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 

resp = requests.get(url) 

if resp.status_code != 200: @ 
resp.raise_for_status() 

return resp.content 




















def download_one(cc, base_url, verbose=False): 
try: 
image = get_flag(base_url, cc) 
except requests.exceptions.HTTPError as exc: @ 
res = exc.response 
if res.status_code == 404: 
status = HTTPStatus.not_found © 
msg = 'not found' 
else: @ 
raise 
else: 
save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: 日 
print(cc, msg) 


return Result(status, cc) @ 


Q get_flag 国 数 没 有 处 理 错 误 ， 当 HTITP 代码 不 是 200 时 ， 使 用 requests.Response， 
raise_for_status 方法 抛 出 异常 。? 
@: download_one 国 数 捕获 requests.exceptions.HTTPError 异常 ， 特 别处 理 HTTP 404 错 





(3 …… 方法 是 ， 把 局 部 变量 status 设 为 HTTPStatus.not_found; HTTPStatus 是 从 flags2_ 
common 模块 〈 见 示例 A-10) 中 导入 的 Enum 对 象 。 

O 重新 抛 出 其 他 HTTPError 异常 ， 这 些 异常 会 向 上 冒 泡 ， 传 给 调用 方 。 

O 如 果 在 命令 行 中 设 定 了 -v/--verbose 选项 ， 显 示 国 家 代码 和 状态 消息 ， 这 就 是 详细 模 
式 中 看 到 的 进度 信息 。 











注 9: HTTP 代码 200 表示 成 功 完 成 HTTP 请 求 。 一 一 编者 注 
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ResuLt， 其 中 有 个 status ZR, H 


FN 


Q download_one 函数 的 返回 值 是 一 个 namedtuple 
值 是 HTTPStatus.not_found sk HTTPStatus.ok, 


示例 17-13 列 出 的 是 download_many 函数 的 依 序 下 载 版 。 代 码 虽 然 简单 ， 不 过 值得 分 析 一 
下 ， 以 便 后 面 与 并 发 版 对 比 。 我 们 要 关注 的 是 报告 进度 、 处 理 错误 和 统计 下 载 数量 的 方式 。 


示例 17-13 flags2_sequential.py: 实现 依 序 下 载 的 download_many 函数 
def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() © 
cc_iter = sorted(cc_list) @ 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) © 
for cc in cc_iter: @ 
try: 
res = download_one(cc, base_url, verbose) © 
except requests.exceptions.HTTPError as exc: @ 
error_msg = 'HTTP error {res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: @ 
error_msg = ‘Connection error' 
else: O 
error_msg = 
status = res.status 






































ww 


if error_msg: 
status = HTTPStatus.error © 
counter[status] += 1 四 
if verbose and error_msg: @ 
print('*** Error for {}: {}'.format(cc, error_msg)) 


return counter @ 


Q 这 个 Counter 实例 用 于 统计 不 同 的 下 载 状态 : HTTPStatus.ok, HTTPStatus.not_found 或 
HTTPStatus.error, 

O 按 字 母 顺 序 传人 的 国家 代码 列表 ， 保 存在 cc_iter 变量 中 。 

O 如 果 不 是 详细 模式 ， 把 cc_iter 传 给 tadm 函数 ， 返 回 一 个 迭代 器 ， 产 出 cc_iter 中 的 元 
素 ， 还 会 显示 进度 条 动画 。 

O 这 个 for 循环 迭代 cc_iter…… 

©@…… 不 断 调用 download_one 函数 ， 执 行 下 载 。 

O 处 理 get_flag 函数 抛 出 的 与 HTTP 有关 的 且 download_one 国 数 没有 处 理 的 异常 。 

O 处 理 其 他 与 网 络 有 关 的 异常 。 其 他 异常 会 中 止 这 个 脚本 ， 因 为 调用 downtoad_many 国 数 
的 flags2_common.main 国 数 中 没有 try/except 块 。 

O 如 果 没 有 异常 从 download_one pK Be HH WE, AA download_one 国 数 返 回 的 namedtuple 
(HTTPStatus) 中 获取 status, 

O 如 果 有 错误 ， 把 局 部 变量 status 设 为 相应 的 状态 。 

O 以 HTTPStatus (一 个 Enum) 中 的 值 为 键 ， 增 加 计数 器 

O 如 果 是 详细 模式 ， Te 显示 ae 4 前 国家 代码 的 错误 消息 。 

® 返回 counter， 以 便 main 函数 能 在 最 终 的 报告 中 显示 数量 。 





















































下 面 分 析 重 构 后 的 线程 池 示例 








flags2_threadpool.py. 





17.5.2 4A futures.as_completed py ži 


为 了 集成 TQDM 进度 条 ， 并 处 理 各 次 请 求 中 的 错误 ，fags2_threadpool.py 脚本 用 到 我 们 见 
过 的 futures.ThreadPooLExecutor 类 和 futures.as_completed 函数 。 示 例 17-14 是 fags2_ 
threadpool.py 脚本 的 完整 代码 清单 。 这 个 脚本 只 实现 了 download_many 函数 ， 其 他 函数 都 
重用 fLags2_common 和 flags2_sequential 模块 里 的 。 











示例 17-14 flags2_threadpool.py: 完整 的 代码 清单 
import collections 
from concurrent import futures 


import requests 
import tqdm @ 


from flags2_common import main, HTTPStatus @ 
from flags2_sequential import download_one © 


DEFAULT_CONCUR_REQ = 30 @ 
MAX_CONCUR_REQ = 1000 日 


def download_many(cc_list, base_url, verbose, concur_req): 
counter = collections.Counter() 
with futures. ThreadPoolExecutor(max_workers=concur_req) as executor: @ 
to_do_map = {} @ 
for cc in sorted(cc_list): @ 
future = executor.submit(download_one, 
cc, base_url, verbose) © 
to_do_map[future] = cc @ 
done_iter = futures.as_completed(to_do_map) @ 
if not verbose: 
done_iter = tqdm.tqdm(done_iter, total=len(cc_list)) 四 
for future in done_iter: @® 
try: 
res = future.result() @ 
except requests.exceptions.HTTPError as exc: 四 
error_msg = 'HTTP {res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc. response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error' 
else: 
error_msg = 
status = res.status 


ww 


if error_msg: 
status = HTTPStatus.error 
counter[status] += 1 
if verbose and error_msg: 
cc = to_do_map[future] © 
print('*** Error for {}: {}'.format(cc, error_msg)) 
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return counter 


if _name == '_ main _ 


main(download_many, DEFAULT_CONCUR_REQ, MAX_CONCUR_REQ) 


@ 导入 显示 进度 条 的 库 。 

@ 从 flLags2_common 模块 中 导入 一 个 函数 和 一 个 Enum, 

© 重用 flags2_sequential 模块 ( 见 示例 17-12) 里 的 download_one 国 数 。 

O 如 果 没 有 在 命令 行 中 指定 -m/--max_req 选项 ， 使 用 这 个 值 作为 并 发 请 求 数 的 最 大 值 ， 
也 就 是 线程 池 的 大 小 ， 真实 的 数量 可 能 会 比 这 少 ， 例 如 下 载 的 国旗 数量 较 少 。 

O 不 管 要 下 载 多 少 国旗 ， 也 不 管 -m/--max_req 命令 行 选项 的 值 是 多 少 ，MAX_CONCUR_REQ 会 
限制 最 大 的 并 发 请 求 数 ， 这 是 一 项 安全 预防 措施 。 

@ 把 max_workers 设 为 concur_req， 创 建 ThreadPooLExecutor 实例 ; main 国 数 会 把 下 面 这 
三 个 值 中 最 小 的 那个 赋值 给 concur_req; MAX_CONCUR_REQ, cc_list 的 长 度 、-m/--max_ 
req 命令 行 选项 的 值 。 这 样 能 避免 创建 超过 所 需 的 线程 。 

O 这 个 字典 把 各 个 Future 实例 (表示 一 次 下 载 ) 映射 到 相应 的 国家 代码 上 ， 在 处 理 错误 
时 使 用 。 

O 按 字 母 顺 序 达 代 国家 代码 列表 。 结 果 的 顺序 主要 由 HTTP 响应 的 时 间 长 短 决定 ， 不 过 ， 
如 果 线 程 池 的 大 小 (由 concur_req ie) 比 len(cc_list) 小 得 多 ， 可 能 会 发 现 有 按 字 
母 顺序 批量 下 载 的 情况 

© 每 次 调用 executor. submit 方法 排 定 一 个 可 调用 对 象 的 执行 时 间 ， 然 后 返回 一 个 Future 
实例 。 第 一 个 参数 是 可 调用 的 对 象 ， 其 余 的 参数 是 传 给 可 调用 对 象 的 参数 。 

O 把 返回 的 future 和 国家 代码 存储 在 字典 中 。 

@ futures.as_completed 国 数 返 回 一 个 友 代 器 ， 在 future 运行 结束 后 产 出 future。 

O 如 果 不 是 详细 模式 ， 把 as_completed 函数 返回 的 结果 传 给 tqdm 国 数 ， 显 示 进 度 条 ; Al 
为 done_iter 没有 len 国 数 ， 所 以 我 们 必须 通过 total= 参数 告诉 tqdm 函数 预期 的 元 素 
数量 ， 这 样 tqdn 才能 预计 剩余 的 工作 量 。 

图 hist wa future, 

D É future 上 调用 result 方法 ， 要 么 返回 可 调用 对 象 的 返回 值 ， 要 么 抛 出 可 调用 的 对 象 

在 执行 过 程 中 捕获 的 异常 。 这 个 方法 可 能 会 阻塞 ， 等 待 确定 结果 不过， 在 这 个 示例 中 

不 会 阻 寨 ， 因 为 as_completed 国 数 只 返回 已 经 运行 结束 的 future, 

O 处 理 可 能 出 现 的 异常 ， 这 个 函数 余下 的 代码 与 依 序 下 载 版 downtoad_many 国 数 一 样 ( 见 
示例 17-13)， 不 过 下 一 点 除外 。 

O 为 了 给 错误 消息 提供 上 下 文 ， 以 当前 的 future 为 键 ， 从 to_do_map 中 获取 国家 代码 。 

在 依 序 下 载 版 中 无 须 这 么 做 ， 因 为 那 一 版 亿 代 的 是 国家 代码 ， 所 以 知道 当前 国家 的 代 
码 ， 而 这 里 迭代 的 是 future, 

示例 17-14 用 到 了 一 个 对 Futures.as_conpleted 函数 特别 有 用 的 惯用 法 构建 一 个 字典 ， 

把 各 个 future 映射 到 其 他 数据 (future 运行 结束 后 可 能 有 用 ) 上 。 这 里 ， 在 to_do_map 中 ， 

我 们 把 各 个 future 映射 到 对 应 的 国家 代码 上 。 这 样 ， 尽 管 future 生成 的 结果 顺序 已 经 乱 了 ， 

依然 便于 使 用 结果 做 后 续 处 理 。 
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Python 线程 特别 适合 VO 密集 型 应 用 ，concurrent .futures 模块 大 大 简化 了 某 些 使 用 场景 
下 Python 线程 的 用 法 。 我 们 对 concurrent. futures 模块 基本 用 法 的 介绍 到 此 结束 。 下 面 讨 
论 不 适合 使 用 ThreadPooLExecutor 或 ProcessPooLExecutor 类 时 ， 有 哪些 灰 代 方案 。 


17.5.3 ”线程 和 多 进程 的 替代 方案 


Python 自 0.9.8 版 (1993 年 ) 就 支持 线程 了 ，concurrent.futures 只 不 过 是 使 用 线程 的 最 
新 方式 。Python 3 废弃 了 原来 的 thread 模块 ， 换 成 了 高 级 的 threading 模块 (https:/docs. 
python.org/3/library/threading.html), '° 如 果 futures.ThreadPooLExecutor 类 对 某 个 作业 来 说 
不 够 灵活 ， 可 能 要 使 用 threading 模块 中 的 组 件 〈 如 Thread, Lock, Semaphore 等 ) 自行 制 
定 方案 ， 比 如 说 使 用 queue 模块 (https://docs.python.org/3/library/queue.html) 创建 线程 安 
全 的 队列 ， 在 线程 之 间 传递 数据 。futures.ThreadPooLExecutor 类 已 经 封装 了 这 些 组 件 。 
对 CPU 密集 型 工作 来 说 ， 要 启动 多 个 进程 ， 规 避 GIL。 创 建 多 个 进程 最 简单 的 方式 是 ， 使 
用 futures.ProcessPoolExecutor 类 。 不 过 和 前 面 一 样 ， 如 果 使 用 场景 较 复 杂 ， 需 要 更 高 
RATA, multiprocessing fis (https://docs.python.org/3/library/multiprocessing.html) 的 
API 与 threading 模块 相仿 ， 不 过 作业 交 给 多 个 进程 处 理 。 对 简单 的 程序 来 说 ， 可 以 用 
multiprocessing 模块 代替 threading 模块 ， 少 量 改 动 即 可 。 不 过 ，muLtiprocessing 模块 
还 能 解决 协作 进程 遇 到 的 最 大 挑战 : 在 进程 之 间 传 递 数 据 。 


17.6 本章 小 结 


本 章 开 头 对 两 个 HITP 并 发 客户 端 和 一 个 依 序 下 载 的 客户 端 做 了 对 比 ， 结 果 是 并 发 版 比 依 
序 下 载 的 脚本 性 能 高 很 多 。 

分 析 过 使 用 concurrent. futures 实现 的 第 一 个 示例 后 ， 我 们 深入 探讨 了 future 对 象 ， 即 
concurrent.futures.Future 或 asyncio.Future 类 的 实例 ， 着 重 说 明了 二 者 的 共同 点 (区别 
在 第 18 章 详 述 ) 。 我 们 说 明了 如 何 使 用 Executor .submit(...) 方 法 创建 mture， 以 及 如 何 
使 用 concurrent.futures.as_completed(...) PACE IS {Ta RH future, 


接 下 来 ， 我们 分 析 了 为 什么 尽管 有 GIL, Python 线程 仍然 适合 VO 密集 型 应 用 : 标准 
库 中 每 个 使 用 C 语 言 编写 的 VO 函数 都 会 释放 GIL， 因 此 ， 当 某 个 线程 在 等 待 1O 时 ， 
Python 调度 程序 会 切换 到 另 一 个 线程 。 然 后 ， 我 们 讨论 了 如 何 借助 concurrent. futures. 
ProcessPoolExecutor 类 使 用 多 进程 ， 以 此 绕 开 GIL， 使 用 多 个 CPU 核心 运行 加 密 算法 ， 
并 通过 四 个 职 程 实现 一 倍 多 的 速度 提升 。 


在 随后 的 一 节 中 ， 我 们 深入 分 析 了 concurrent.futures.ThreadPooLExecutor 类 的 运作 方 
式 。 为 了 说 明 问 题 ， 我 特意 举 了 一 个 示例 ， 创 建 几 个 任务 ,但 是 休眠 儿 秒 钟 ， 什 么 也 不 
做 ， 只 是 显示 带 有 时 间 惟 的 状态 。 


接 下 来 ， 本 章 回 到 下 载 国旗 的 示例 ， 增 加 了 进度 条 和 错误 处 理 代码 ， 并 且 进 一 步 探索 了 


















































































































































注 10: threading 模块 自 Python 1.5.1 (1998 年 ) 就 已 存在 ， 不 过 有 些 人 仍然 继续 使 用 旧 的 thread 模块 。 
Python 3 把 thread 模块 重 命名 为 -thread， 以 此 强调 这 是 低层 实现 ， 不 应 该 在 应 用 代码 中 使 用 。 
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future.as_completed 生成 器 函数 。 我 们 得 知 一 个 常见 的 做 法 : 把 future 存储 在 一 个 字典 
中 ， 提 交 future 时 把 future 与 相关 的 信息 联系 起 来 ， 这 样 ，as_completed 迭代 器 产 出 future 
后 ， 就 可 以 使 用 那些 信息 。 


最 后 ， 本 章 简 要 说 明了 多 线程 和 多 进程 并 发 的 低层 实现 (但 却 更 灵活 ) 一 一 threading 和 
multiprocessing 模块 。 这 两 个 模块 代表 在 Python 中 使 用 线程 和 进程 的 传统 方式 。 


17.7 延伸 阅读 


Brian Quinlan 是 concurrent.futures 包 的 贡献 者 ， 他 在 PyCon Australia 2010 上 所 做 的 
“The Future Is Soon!” (http:Wwww.pyvideo.org/video/480/pyconau-2010--the-future-is-soon ) 
演讲 对 这 个 包 做 了 介绍 。Quinlan 演讲 时 没 用 幻灯 片 ， 而 是 直接 在 Python 控制 台中 输入 
代码 ， 以 此 说 明 这 个 库 的 用 途 。 作 为 引子 ， 他 在 演讲 中 推荐 了 XKCD 漫画 家 和 程序 员 
Randall Munroe 制作 的 一 个 视频 ，Randall 在 这 个 视频 中 对 Google Maps 发 起 了 DoS 攻击 
( 韭 有 意 为 之 )， 绘 制 一 个 彩色 地 图 ， 显 示 他 驾车 绕 城 的 路 线 。 这 个 库 的 正式 介绍 文件 是 
“PEP 3148—futures—execute computations asynchronously” (https://www.python.org/dev/ 
peps/pep-3148/) 。 在 这 个 PEP F, Quinlan ‘Si, concurrent.futures 库 “ 受 Java 的 java. 
util.concurrent 包 影 响 很 大 ”。 



































Jan Palach 写 的 Parallel Programming with Python (Packt 出 版 社 ) 一 书 介绍 了 几 个 并 发 编程 
的 工具 ， 包 括 concurrent.futures, threading 和 multiprocessing 库 。 除 了 标准 库 之 外 ， 
这 本 书 还 讨论 了 Celery (http://celery.readthedocs.org/en/latest/getting-started/introduction. 
html) 。 这 是 一 个 任务 队列 ， 用 于 把 工作 分 配给 多 个 线程 和 进程 ， 甚 至 是 不 同 的 设备 。 在 
Django 社区 中 ， 为 了 减轻 繁重 任务 的 负担 (例如 ， 把 生成 PDF 的 工作 交 给 其 他 进程 ， 防 
JE HTTP 响应 延迟 生成 )，Celery 可 能 是 使 用 最 广泛 的 系统 。 


Beazley 与 Jones 的 著作 《Python Cookbook (第 3 版 ) 中 文 版 》 有 多 个 使 用 concurrent. 
futures 的 诀 窑 ， 首 先是 “11.12 理解 事件 驱动 型 JO”。“12.7 创建 线程 地” 展示 了 一 个 简 
单 的 TCP 回 显 服务 器 ,“12.8 实现 简单 的 并 行 编程 ”提供 了 一 个 特别 实用 的 示例 : 借助 
ProcessPoolExecutor 实例 分 析 一 整个 目录 中 使 用 gzip 压缩 的 Apache 日 志文 件 。 这 本 书 的 
第 12 章 对 线程 做 了 更 多 介绍 ， 特 别 值得 一 提 的 是 “12.10 定义 一 个 Actor 任务 ”， 这 个 诀 容 
演示 了 参与 者 模型 : 通过 传递 消息 协调 多 个 线程 的 可 行 方式 。 

Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 效 方法 》 一 书 中 有 
一 章 探讨 了 并 发 的 多 个 话题 ， 包 括 : 协 程 ， 使 用 concurrent. futures 库 处 理 线程 和 进程 ， 
不 使 用 ThreadPooLExecutor 类 ， 而 使 用 锁 和 队列 做 线程 编程 。 
Micha Gorelick 与 Ian Ozsvald 写 的 High Performance Python (O'Reilly 出 版 社 ) 和 Doug 
Hellmann 写 的 《Python 标准 库 》 都 洱 盖 了 线程 和 进程 。 
若 想 了 解 不 使 用 线程 或 回调 的 现代 并 发 方式 ， 推 荐 阅读 Paul Butcher 写 的 《七 周 七 并 发 
模型 》。 ”我 喜欢 这 本 书 的 副标题 “When Threads Unravel” (线程 束手无策 之 时 )。 这 本 书 






































































































































注 11: 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7-115-38606-9。 一 一 编者 注 
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的 第 工 章 简单 介绍 了 线程 和 锁 ， 后 面 的 六 章 探 讨 了 不 同 语言 (不 包括 Python, Ruby 和 
JavaScript) 为 并 发 编程 提供 的 现代 化 替代 方案 。 

如 果 对 GIL 感 兴趣 ， 请 先 阅读 Python 文档 中 的 “Python Library and Extension FAQ” (“Can’t 
we get rid of the Global Interpreter Lock?” , https://docs.python.org/3/faq/library.html#id18), Guido 
van Rossum 写 的 “It isn’t Easy to Remove the GIL” (http://www.artima.com/weblogs/viewpost. 
jsp?thread=214235) 和 Jesse Noller (multiprocessing 包 的 贡献 者 ) “S AY “Python Threads 
and the Global Interpreter Lock” (http://jessenoller.com/2009/02/01/python-threads-and-the-global- 
interpreter-lock/) 也 值得 一 读 。 此 外 ，David Beazley E “Understanding the Python GIL” (http:// 
www.dabeaz.com/GIL/) 中 详细 探讨 了 GIL 的 内 部 运作 。" 在 这 次 演讲 的 第 54 张 幻灯 片 中 
(http://www.dabeaz.com/python/UnderstandingGIL.pdf), Beazley 得 出 了 一 些 令 人 担忧 的 结果 ， 
例如 ， 使 用 Python 3.2 引入 的 新 GIL 算法 做 基准 测试 时 ， 他 发 现 处 理 时 间 增 加 了 20 倍 。 不 
过 ，Beazley 似乎 使 用 一 个 空 的 while True: pass 循环 模拟 CPU 密集 型 工作 ， 而 现实 中 不 会 
这 样 做 。 在 Beazley 提交 的 缺陷 报告 中 ， 根 据 Antoine Pitrou (实现 新 GIL 算法 的 人 ) 的 评论 
(http:/bugs.python.orgyissue7946#msg223110) ， 这 个 问题 与 工作 负载 没有 太 大 关系 。 


GIL 是 实际 存在 的 问题 ， 而 且 短 时 间 内 不 可 能 消失 ， 不 过 Jesse Noller 和 Richard Oudkerk 
开发 了 一 个 库 ， 能 让 CPU 密集 型 应 用 轻松 地 绕 开 这 个 问题 multiprocessing 包 。 这 个 
包 在 多 个 进程 中 模拟 threading 模块 的 API， 而 且 支 持 基 础 设施 的 锁 、 了 队列、 管道、 共享 
内 存 ， 等 等 。 这 个 包 由 “PEP 371—Addition of the multiprocessing package to the standard 
library” (https://www.python.org/dev/peps/pep-0371/) 引入 。 这 个 包 的 官方 文档 是 个 93KB 
的 .rst 文件 (大约 63 页 )， 是 Python 标准 库 文档 中 最 长 的 一 章 。 多 进程 是 concurrent. 
futures.ProcessPoolExecutor 类 的 基础 。 


对 于 CPU 密集 型 和 数据 密集 型 并 行 处 理 ， 现 在 有 个 新 工具 可 用 分 布 式 计算 引擎 
Apache Spark (https://spark.apache.org/) Spark 在 大 数据 领域 发 展 势头 强劲 ， 提 供 了 友好 
的 Python API， 支 持 把 Python 对 象 当 作 数 据 ， 如 示例 页 面 所 示 (https://spark.apache.org/ 
examples.html) 


































































































João S. O. Bueno FF 发 的 lelo JÆ (https://pypi.python.org/pypi/lelo) 和 Nat Pryce 开发 的 
python-parallelize 库 (https://github.com/npryce/python-parallelize) 简洁 且 十 分 易于 使 用 ， 
它们 的 作用 是 使 用 多 个 进程 处 理 并 行 任务 。lelo 包 定义 了 一 个 @parallel 装饰 右 ， 可 以 应 
用 到 任何 函数 上 ， 把 函数 变 成 非 阻塞 : 调用 被 装饰 的 函数 时 ， 函 数 在 一 个 新 进程 中 执行 。 
Nat Pryce 开发 的 python-parallelize 包 提 供 了 一 个 parallelize 生成 器 ， 能 把 for 循环 分 
配给 多 个 CPU 执行 。 这 两 个 包 在 内 部 都 使 用 了 multiprocessing 模块 。 




















注 12: 感谢 Lucas Brunialti 把 这 个 演讲 的 链接 发 给 我 。 
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远离 线程 
并 发 是 计算 机 科学 中 最 难 的 概念 之 一 (通常 最 好 别 去 招惹 它 )。™ 





David Beazley 
Python 教练 和 科学 狂人 


上 面 引 自 David Beazley 的 话 与 本 章 开 头 引 自 Michele Simionato 的 话 明显 了 矛盾， 但 我 都 
同意 。 在 大 学 学 过 一 门 并 发 课程 之 后 ( 那 门 课 把 “并 发 编程 ”与 管理 线程 和 锁 划 上 等 
号 ) ， 我 得 出 一 个 结论 ， 我 不 该 自己 管理 线程 和 锁 ， 而 应 该 管理 内 存 分 配 和 释放 。 线 程 
和 锁 最 好 由 懂行 的 系统 程序 员 管 理 ， 他 们 有 这 种 爱好 ， 也 有 时 间 去 管理 (但 愿 如 此 )。 


因此 我 觉得 concurrent. futures 包 很 棒 ， 它 把 线程 、 进 程 和 队列 视 作 服务 的 基础 设施 ， 
不 用 自己 动手 直接 处 理 。 当 然 ， 这 个 包 针 对 的 是 简单 的 作业 ， 也 就 是 所 谓 的 “高 度 并 
行 ” 问 题 (https:Wen.wikipedia.org/wiki/Embarrassingly_parallel) 。 可 是 ， 正 如 本 章 开 头 
Simionato 所 说 的 那样 ， 编 写 应 用 (而 非 操 作 系 统 或 数据 库 服 务 器 ) 时 ， 遇 到 的 大 部 分 
并 发 问题 部 属于 这 一 种 。 

对 于 并 发 程度 不 高 的 问题 来 说 ， 线 程 和 锁 也 不 是 解决 之 道 。 在 操作 系统 层面 ， 线 程 
永远 不 会 消失 ; 不 过 ， 过 去 七 年 我 觉得 让 人 了 眼前 一 亮 的 编程 语言 (包括 Go、Elixir 
和 Clojure) 都 对 并 发 做 了 更 好 、 更 高 层 的 抽象 ， 正 如 《七 周 七 并 发 模型 》 一 书 所 述 。 
Erlang (实现 Elixir 的 语言 ) 是 典型 示例 ， 设 计 这 门 语 言 时 彻底 考虑 到 了 并 发 。 我 对 这 
门 语言 不 感 兴趣 的 原因 很 简单 一 向 法 丑陋 。 我 被 Python 的 向 法 宠 坏 了 。 


José Valim 是 著名 的 Ruby on Rails 核心 贡献 者 ， 他 设计 的 Elixir 提供 了 友好 而 现代 的 
向 法 。 与 Lisp 和 Clojure 一 样 ，Elixir 也 实现 了 向 法 宏 。 这 是 把 双 刃 剑 。 使 用 揣 法 宏 能 
实现 强大 的 DSL， 可 是 衍生 语言 多 起 来 之 后 ， 代 码 基 会 出 现 兼容 问题 ， 社 区 会 分 裂 。 
大 量 涌现 的 宏 导 致 Lisp 没落 ， 因 为 各 种 Lisp 实现 都 使 用 独特 难 懂 的 方言 。 标 准 化 的 
Common Lisp 则 开始 复苏 。 我 希望 José Valim 能 引领 Elixir 4E, RREK. 





与 Elixir 类 似 ，Go 也 是 一 门 充满 新 意 的 现代 语言 。 可 是 ， 与 Elixir 相 比 ， 某 些 方面 有 
点 保守 。Go RRA RK, A iAH Python 简单 。Go 也 不 支持 继承 和 运算 符 重 载 ， 而 且 提 
供 的 元 编程 支持 没有 Python 多 。 这 些 限制 被 认为 是 Go 语言 的 特点 ， 因 为 行为 和 性 能 
更 可 预料 。 这 对 高 并 发 来 说 是 好 事 ， 而 Go 的 重要 使 命 是 取代 C++, Java 和 Python, 
虽然 Elixir 和 Go 在 高 并 发 领域 是 直接 的 竞争 者 ， 但 是 设计 原理 的 不 同 则 吸引 了 不 同 的 
用 户 群 。 这 两 门 语言 都 可 能 莲 勃 发 展 。 可 是 纵 观 编程 语言 的 历史 ， 保 宇 的 语言 更 能 吸 
引 程 序 员 。 我 希望 自己 能 精通 Go 和 Elixir, 


























注 13: 摘自 PyCon 2009 教程 “A Curious Course on Coroutines and Concurrency” (http://vww.dabeaz.com/coroutines/ ) 
的 第 9 张 幻 灯 片 。 











关于 GIL 


GIL 简化 了 CPython 解释 器 和 C 语言 扩展 的 实现 。 得 益 于 GIL, Python 有 很 多 C 语言 
扩展 一 一 这 绝对 是 如 今 Python 如 此 受 欢 迎 的 主要 原因 之 一 。 


多 年 以 来 ， 我 一 直觉 得 GIL 导致 Python 线程 几乎 没有 用 武之 地 ， 只 能 开发 一 些 玩 具 应 
用 。 直 到 发 现 标准 库 中 每 一 个 阻塞 型 IO 有 子 数 都 会 释放 GIL 之 后 ， 我 才 意 识 到 Python 
线程 特别 适合 在 IO 密集 型 系统 〈( 监 于 我 的 工作 经 验 ， 客 户 经 常 付费 让 我 开发 这 种 应 
用 ) 中 使 用 。 


竞争 对 手 对 并 发 的 支持 


MRI (推荐 使 用 的 Ruby 实现 ) 也 有 GIL， 因 此 ，Ruby 线程 与 Python 线程 受到 同样 的 
限制 。 相 比 之 下 ，JavaScript 解释 器 则 根本 不 支持 用 户 层 级 的 线程 。 在 JavaScript 中 ， 
只 能 通过 回调 式 异 步 编程 实现 并 发 。 我 提 到 这 些 是 因为 ，Ruby 和 JavaScript 是 最 能 
接 与 Python 竞争 的 通用 动态 编程 语言 。 

在 深 说 并 发 的 这 一 批 新 语言 中 ，Go 和 Elixir 或 许 是 最 能 蚕食 Python 的 语言 。 不 过 ， 现 
在 有 asyncio 了 。 了 既然 这 么 多 人 相信 纯粹 使 用 回调 的 Node.js 平台 可 以 做 并 发 编程 ， 那 
Z asyncio 生态 系统 成 熟 后 ，Python 赢 回 这 些 人 能 有 多 难 呢 ? 不 过 ， 这 是 下 一 章 “ 杂 
谈 ” 的 话题 。 
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使 用 asyncio 包 处 理 并 友 


并 发 是 指 一 次 处 理 多 件 事 。 

并 行 是 指 一 次 做 多 件 事 。 

二 者 不 同 ， 但 是 有 联系 。 

一 个 关于 结构 ， 一 个 关于 执行 。 

并 发 用 于 制定 方案 ， 用 来 解决 可 能 (但 未 必 ) 并 行 的 问题 。 





Rob Pike 
Go 语言 的 创造 者 之 一 


Imre Simon 教授 "说 过 ， 科 学 界 有 两 个 重要 过 错 : 使 用 不 同 的 词 表示 相同 的 事物 ， 以 及 使 
用 同一 个 词 表 示 不 同 的 事物 。 如 果 你 研究 过 并 发 编程 或 并 行 编程 ， 会 发 现 “ 并 发 ”和 “并 
行 ” 有 不 同 的 定义 。 我 将 采用 上 述 引 文中 Rob Pike 的 非 正式 定义 。 














真正 的 并 行 需要 多 个 核心 。 现 代 的 笔记 本 电脑 有 4 个 CPU 核 





心 ， 但 是 通常 不 经 意 间 就 


有 超过 100 个 进程 同时 和 运行。 因此， 实际 上 大 多 数 过 程 都 是 并 发 处 理 的 ， 而 不 是 并 行 处 




















里 。 计 算 机 始终 运行 着 100 多 个 进程 ， 确 保 每 个 进程 都 有 机 会 
同时 做 的 事情 不 能 超过 四 件 。 十 年 前 使 用 的 设备 也 能 并 发 处 至 




















取得 进展 ， 不 过 CPU 本 身 
100 个 进程 ， 不 过 都 在 后 





一 个 核心 里 。 鉴 于 此 ，Rob Pike 才 把 那 次 演讲 取 名 为 “Concurrency Is Not Parallelism (It’s 


Better)”[“ 并 发 不 是 并 行 (并 发 更 好 )”]。 








注 1: 摘自 “Concurrency Is Not Parallelism (It’s Better)” (http://concur.rspace.googlecode.com/hg/talk/concur.html#slide-5) 


演讲 的 第 5 张 幻灯 片 。 











注 2: Imre Simon (1943—2009) 是 巴西 的 计算 机 科学 先驱 ， 对 自动 机 理论 (Automata Theory) 有 杰出 的 贡献 ， 











开创 了 热带 数学 (Tropical Mathematics) 这 一 领域 。 他 还 是 自由 软件 和 
他 一 起 学 习 、 工 作 和 相处 。 
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自由 文化 的 拥护 者 。 我 有 幸 曾 与 














本 章 介 绍 asyncio 包 ， 这 个 包 使 用 事件 循环 驱动 的 协 程 实现 并 发 。 这 是 Python 中 最 大 也 
是 最 具 雄 心 壮志 的 库 之 一 。Guido van Rossum 在 Python 仓库 之 外 开发 asyncio 包 ， 把 这 个 
项 目的 代号 命名 为 “Tulip”( 郁 金 香 )。 因 此 ， 在 网 上 搜索 这 方面 的 资料 时 ， 会 经 常 看 到 
这 种 花 的 名 称 。 例 如 ， 这 个 项 目的 主要 讨论 组 仍 叫 python-tulip (https://groups.google.com/ 
forum/#!forum/python-tulip) 。 


Python 3.4 把 Tulip 添加 到 标准 库 中 时 ， 把 它 重 命名 为 asyncio。 这 个 包 也 兼容 Python 3.3, 
在 PyPI 中 可 以 通过 新 的 官方 名 称 找到 (https://pypi.python.org/pypi/asyncio)。asyncio 大 量 
(E yield from 表达 式 ， 因 此 与 Python 旧版 不 兼容 。 


Trollius MA (也 以 花 名 命名 ，http://trollius.readthedocs.org/) 移植 了 asyncio, 4E 
yield from 替换 成 yield 和 精巧 的 回调 (From 和 Return)， 以 便 支持 Python 2.6 
及 以 上 版 本 。yield from ... 表达 式 变 成 了 yield From(...); 如 果 协 程 需要 
返回 结果 ， 那 么 要 把 return result 替换 成 raise Return(result)。Trollius 由 
Victor Stinner 主导 ， 他 也 是 asyncio 包 的 核心 开发 者 。Victor 人 很 好 ， 在 本 书 付 
梓 之 前 同意 审核 本 章 。 



























































本 章 讨论 以 下 话题 : 

。 对 比 一 个 简单 的 多 线程 程序 和 对 应 的 asyncio 版 ， 说 明 多 线程 和 异步 任务 之 间 的 关系 
e asyncio.Future 类 与 concurrent.futures.Future 类 之 间 的 区 别 

。 第 17 章 中 下 载 国旗 那些 示例 的 异步 版 

。 握 弃 线程 或 进程 ， 如 何 使 用 异步 编程 管理 网 络 应 用 中 的 高 并 发 

。 在 异步 编程 中 ， 与 回调 相 比 ， 协 程 显著 提升 性 能 的 方式 

。 如 何 把 阻塞 的 操作 交 给 线程 池 处 理 ， 从 而 避免 阻塞 事件 循环 

。 使 用 asyncio 编写 服务 器 ， 重 新 审视 Web 应 用 对 高 并 发 的 处 理 方式 

。 为 什么 asyncio 已 经 准备 好 对 Python 生态 系统 产生 重大 影响 


首先 ， 本 章 通过 简单 的 示例 来 对 比 threading 模块 和 asyncio 包 。 


18.1 线程 与 协 程 对 比 


有 一 次 讨论 线程 和 GIL F, Michele Simionato 发 布 了 一 个 简单 但 有 趣 的 示例 (https://mail. 
python.org/pipermail/python-list/2009-February/525280.html) : 在 长 时 间 计 算 的 过 程 中 ， 使 
用 multiprocessing 包 在 控制 台中 显示 一 个 由 ASCI 字符 "|/-\" 构成 的 动画 旋转 指针 。 

我 改写 了 Simionato 的 示例 ， 一 个 借 由 threading 模块 使 用 线程 实现 ， 一 个 借 由 asyncio 包 
使 用 协 程 实现 。 我 这 么 做 是 为 了 让 你 对 比 两 种 实现 ， 理 解 如 何不 使 用 线程 来 实现 并 发 行为 。 

示例 18-1 和 示例 18-2 的 输出 是 动态 的 ， 因 此 你 一 定 要 运行 这 两 个 脚本 ， 看 看 结果 如 
何 。 如 果 你 在 坐 地 铁 (或 者 在 某 个 没有 Wi-Fi 连接 的 地 方 )， 可 以 看 图 18-1， 想 象 单词 
“thinking” 之 前 的 \ 线 是 旋转 的 。 
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eoo 2. Python 2 
(.venv34) Lontra:17-concurrency Luciano$ python3 spinner_thread.py 

spinner object: <Thread(Thread-1, initial)> 

Answer: 42 

(.venv34) lontra:17-concurrency Luciano$ python3 spinner_asyncio.py 

spinner object: <Task pending coro=<spin() running at spinner_asyncio.py:12>> 

\ thinking! 











18-1; spinner_thread.py 和 spinner_asyncio.py 两 个 脚本 的 输出 类 似 : 旋转 指针 对 象 的 字符 串 表 


示 形 式 和 文本 “Answer 42”。 在 这 个 截图 中 ，spinner_asyncio.py 脚本 仍 在 运行 中 ， 旋 转 
指针 显示 的 是 “\ thinking!” 消 息 ; 脚本 运行 结束 后 ， 那 一 行 会 替换 成 “Answer: 42” 


首先 ， 分 析 spinner_thread.py 脚本 〈 见 示例 18-1)。 


示例 18-1 spinner_thread.py: 通过 线程 以 动画 形式 显示 文本 式 旋转 指针 























import threading 
import itertools 
import time 
import sys 


class Signal: @ 
go = True 


def spin(msg, signal): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): © 


status = char + + msg 
write(status) 
flush() 


write('\x08' * len(status)) @ 
time.sleep(.1) 
if not signal.go: @ 
break 
write(' ' * len(status) + '\x08' * len(status)) © 


def slow_function(): @ 
# 假装 等 待 I/0 一 段 时 间 
time.sleep(3) O 
return 42 





def supervisor(): © 
signal = Signal() 





spinner = threading.Thread(target=spin, 
args=('thinking!', signal)) 

print('spinner object:', spinner) 四 

spinner.start() @ 

result = slow_function() @ 

signal.go = False @® 

spinner.join() @ 

return result 


def main(): 
result = supervisor() 四 
print('Answer:', result) 


if _ name == '  main_ 
main() 


@ 这 个 类 定义 一 个 简单 的 可 变 对 象 ， 其 中 有 个 go 属性 ， 用 于 从 外 部 控制 线程 。 
O 这 个 函数 会 在 单独 的 线程 中 运行 。signal 参数 是 前 面 定 义 的 Signal 类 的 实例 。 
O 这 其 实 是 个 无 限 循 环 ， 因 为 itertools.cycle 函数 会 从 指定 的 序列 中 反复 不 断 地 生成 元 素 。 
O 这 是 显示 文本 式 动 画 的 诀窍 所 在 : 使 用 退 格 符 (\x08) 把 光标 移 回来 。 
O 如 果 go 属性 的 值 不 是 True 了 ， 那 就 退出 循环 。 
O 使 用 空格 清除 状态 消息 ， 把 光标 移 回 开头 。 
O 假设 这 是 耗 时 的 计算 。 
© 调用 sleep 函数 会 阻塞 主线 程 ， 不 过 一 定 要 这 么 做 ， 以 便 释放 GIL， 创 建 从 属 线程 。 
O 这 个 函数 设置 从 属 线程 ， 显 示 线 程 对 象 ， 运 行 耗 时 的 计算 ， 最 后 杀 死 线程 。 
© 显示 从 属 线程 对 象 。 输 出 类 似 于 <Thread(Thread-1, initial)>, 
D 启动 从 属 线程 。 
四 运行 slow_function 函数 ， 阻 塞 主 线程 。 同 时 ， 从 属 线程 以 动画 形式 显示 旋转 指针 。 
O 改变 signal 的 状态 ， 这 会 终止 spin 函数 中 的 那个 for 循环 。 
等 待 spinner 线程 结束 。 
® 运行 supervisor 国 数 。 


注意 ，Python 没有 提供 终止 线程 的 API， 这 是 有 意 为 之 的 。 若 想 关 闭 线程 ， 必 须 给 线程 发 
送 消 息 。 这 里 ， 我 使 用 的 是 signal.go 属性 : 在 主线 程 中 把 它 设 为 False 后 ，spinner 线程 
最 终 会 注意 到 ， 然 后 干净 地 退出 。 


下 面 来 看 如 何 使 用 @asyncio.coroutine 装饰 器 替代 线程 ， 实 现 相 同 的 行为 。 


第 16 章 的 小 结 说 过 ，asyncio 包 使 用 的 “ 协 程 ” 是 较 严 格 的 定义 。 适 合 
asyncio API 的 协 程 在 定义 体 中 必须 使 用 yield from， 而 不 能 使 用 yield, HE 
外 ， 适 合 asyncio 的 协 程 要 由 调用 方 驱动 ， 并 由 调用 方 通过 yield from 调用 ; 
或 者 把 协 程 传 给 asyncio 包 中 的 某 个 国 数 ， 例 如 asyncio.async(...) 和 本 章 
要 介绍 的 其 他 函数 ， 从 而 驱动 协 程 。 最 后 ，@asyncio.coroutine 装饰 器 应 该 应 
用 在 协 程 上 ， 如 下 述 示例 所 示 。 
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我 们 来 分 析 示 例 18-2。 
示例 18-2 spinner_asyncio.py: 通过 协 程 以 动画 形式 显示 文本 式 旋转 指针 


import asyncio 
import itertools 
import sys 


@asyncio.coroutine @ 

def spin(msg): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): 


status = char + ' ' + msg 
write(status) 

flush() 

write('\x08' * Len(status)) 
try: 


yield from asyncio.sleep(.1) © 
except asyncio.CancelledError: @ 
break 
write(' ' * len(status) + '\x08' * len(status)) 


@asyncio.coroutine 

def slow_function(): @ 
# 假装 等 待 I/0 一 段 时 间 
yield from asyncio.sleep(3) © 
return 42 





@asyncio.coroutine 

def supervisor(): @ 
spinner = asyncio.async(spin('thinking!')) O 
print('spinner object:', spinner) © 
result = yield from slow_function() 四 
spinner.cancel() @ 
return result 


def main(): 
loop = asyncio.get_event_loop() @ 
result = loop.run_until_complete(supervisor()) ® 
loop.close() 
print('Answer:', result) 


1 1 


if _name == ' main_': 
main() 


O 打算 交 给 asyncio 处 理 的 协 程 要 使 用 @asyncio.coroutine 装饰 。 这 不 是 强制 要 求 ， 但 是 
强烈 建议 这 么 做 。 原 因 在 本 列表 后 面 。 

O 这 里 不 需要 示例 18-1 中 spin 函数 中 用 来 关闭 线程 的 signal 参数 。 

© 使 用 yield from asyncio.sleep(.1) 代替 time.steep(.1)， 这 样 的 休眠 不 会 阻塞 事件 循环 。 













































































O 如 果 spin 国 数 苏醒 后 抛 出 asyncio.CancelledError 异常 ， 其 原因 是 发 出 了 取消 请 求 ， 

因此 退出 循环 。 

© HÆ, slow_function 函数 是 协 程 ， 在 用 休眠 假装 进行 VO 操作 时 ， 使 用 yield from 继 
续 执 行事 件 循环 。 

Q yield from asyncio.sleep(3) 表达 式 把 控制 权 交 给 主 循环 ， 在 休眠 结束 后 恢复 这 个 协 程 。 

@ HÆ, supervisor 国 数 也 是 协 程 ， 因 此 可 以 使 用 yield from 驱动 slow_function ZK, 

© asyncio.async(...) 国 数 排 定 spin 协 程 的 运行 时 间 ， 使 用 一 个 Task 对 象 包装 spin bh 
程 ， 并 立即 返回 。 

提 显 示 Task 对 象 。 输 出 类 似 于 <Task pending coro=<spin() running at spinner_ 
asyncio.py:12>>, 

O 驱动 slow_function() 国 数 。 结 束 后， 获取 返回 值 。 同 时 ， 事 件 循环 继续 运行 ， 因 为 
slow_function 国 数 最 后 使 用 yield from asyncio.sleep(3) 表达 式 把 控制 权 交 回 给 了 主 
循环 。 

O Task 对 象 可 以 取消 ， 取消 后 会 在 协 程 当前 暂停 的 yield 处 抛 出 asyncto.CancelledError 
异常 。 协 程 可 以 捕获 这 个 异常 ， 也 可 以 延迟 取消 ， 其 至 拒绝 取消 。 

O 获取 事件 循环 的 引用 。 

@ 驱动 supervisor 协 程 ， 让 它 运行 完毕 ， 这 个 协 程 的 返回 值 是 这 次 调用 的 返回 值 。 


除非 想 阻 塞 主线 程 ， 从 而 冻结 事件 循环 或 整个 应 用 ， 否 则 不 要 在 asyncio th 
程 中 使 用 time.sleep(...)。 如 果 协 程 需 要 在 一 段 时 间 内 什么 也 不 做 ， 应 该 
使 用 yield from asyncio.sleep(DELAY), 






















































































使 用 @asyncio.coroutine 装饰 器 不 是 强制 要 求 ， 但 是 强烈 建议 这 么 做 ， 因 为 这 样 能 在 一 众 
普通 的 函数 中 把 协 程 凸显 出 来 ， 也 有 助 于 调试 : 如 果 还 设 从 中 产 出 值 ， 协 程 就 被 垃圾 回收 
T (意味 着 有 操作 未 完成 ， 因 此 有 可 能 是 个 缺陷 )， 那 就 可 以 发 出 警告 。 这 个 装饰 器 不 会 
预 激 协 程 。 

注意 ，spinner thread.py 和 spinner_asyncio.py 两 个 脚本 的 代码 行 数 差不多 。supervisor 
国 数 是 这 两 个 示例 的 核心 。 下 面 详 细 对 比 二 者 。 示 例 18-3 只 列 出 了 线程 版 示例 中 的 
supervisor 国 数 。 




















示例 18-3 spinner_thread.py: 线程 版 supervisor 函数 
def supervisor(): 
signal = Signal() 
spinner = threading. Thread(target=spin, 
args=('thinking!', signal)) 
print('spinner object:', spinner) 
spinner.start() 
result = slow_function() 
signal.go = False 
spinner. join() 
return result 


为 了 对 比 ， 示 例 18-4 列 出 了 supervisor 协 程 。 
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示例 18-4 spinner_asyncio.py: 异步 版 supervisor 协 程 


@asyncio.coroutine 

def supervisor(): 
spinner = asyncio.async(spin('thinking! ')) 
print('spinner object:', spinner) 
result = yield from slow_function() 
spinner .cancel() 
return result 


这 两 种 supervisor 实现 之 间 的 主要 区 别 概述 如 下 。 





asyncio.Task 对 象 差 不 多 与 threading. Thread 对 象 等 效 。Victor Stinner (本 章 的 特约 技 
术 审 校 ) 指 出 ,“Task 对象 像 是 实现 协作 式 多 任务 的 库 (例如 gevent) 中 的 绿色 线程 (green 
thread)”, 

Task 对 象 用 于 驱动 协 程 ，Thread 对 象 用 于 调用 可 调用 的 对 象 。 

Task 对 象 不 由 自己 动手 实例 化 ， 而 是 通过 把 协 程 传 给 asyncio.async(...) 函数 或 loop. 
create_task(...) 方法 获取 。 

获取 的 Task 对 象 已 经 排 定 了 运行 时 间 (例如 ， 由 asyncio.async 函数 排 定 ) ; Thread 实 
例 则 必须 调用 start 方法 ， 明 确 告知 让 它 运 行 。 

在 线程 版 supervisor 函数 中 ，slow_function 函数 是 普通 的 函数 ， 直 接 由 线程 调用 。 在 
异步 版 supervisor 国 数 中 ，stLow_function 国 数 是 协 程 ， 由 yield from 驱动 。 

没有 API 能 从 外 部 终止 线程 ， 因 为 线程 随时 可 能 被 中 断 ， 导 致 系统 处 于 无 效 状 态 。 如 
果 想 终止 任务 ,可 以 使 用 Task.cancel() 实例 方法 ,在 协 程 内 部 抛 出 CancelledError 异常 。 
协 程 可 以 在 暂停 的 yield 处 捕获 这 个 异常 ， 处 理 终止 请 求 。 

supervisor 协 程 必须 在 main 国 数 中 由 Loop.run_until_complete 方法 执行 。 


























上 述 比较 应 该 能 帮助 你 理解 ， 与 更 熟悉 的 threading 模型 相 比 ，asyncio 是 如 何 编 排 并 发 作 
业 的 。 


线程 与 协 程 之 间 的 比较 还 有 最 后 一 点 要 说 明 : 如 果 使 用 线程 做 过 重要 的 编程 ， 你 就 知道 写 
出 程序 有 多 么 困难 ， 因 为 调度 程序 任何 时 候 都 能 中 断 线程 。 必 须 记 住 保 留 锁 ， 去 保护 程序 
中 的 重要 部 分 ， 防 止 多 步 操 作 在 执行 的 过 程 中 中 断 ， 防 止 数据 处 于 无 效 状态 。 

而 协 程 默认 会 做 好 全 方位 保护 ， 以 防止 中 断 。 我 们 必须 显 式 产 出 才能 让 程序 的 余下 部 分 运 
行 。 对 协 程 来 说 ， 无 需 保留 锁 ， 在 多 个 线程 之 间 同 步 操作 ， 协 程 自身 就 会 同步 ， 因 为 在 任 
意 时 刻 只 有 一 个 协 程 运行 。 想 交 出 控制 权时 ， 可 以 使 用 yield By yield from 把 控制 权 交还 
调度 程序 。 这 就 是 能 够 安全 地 取消 协 程 的 原因 :按照 定义 ， 协 程 只 能 在 暂停 的 yield 处 取 
消 ， 因 此 可 以 处 理 cancelledError 异常 ， 执 行 清理 操作 。 


下 



























































AltA asyncio. Future 类 与 第 17 章 所 用 的 concurrent.futures.Future 类 之 间 的 区 别 。 


18.1.1 asyncio.Future: 故意 不 阻塞 


asyncio.Future 类 与 concurrent.futures.Future 类 的 接口 基本 一 致 ， 不 过 实现 方式 不 
同 ， 不 可 以 互 换 。 “PEP 3156—Asynchronous IO Support Rebooted: the “asyncio”Module” 
(https://www.python.org/dev/peps/pep-3156/) 对 这 个 不 幸 状 况 是 这 样 说 的 : 
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未 来 可 能 会 统一 asyncio.Future 和 concurrent.futures.Future 类 实现 的 future ( 例 
如 ， 为 后 者 添加 兼容 yield from _iter_ 7+), 


如 17.1.3 节 所 述 ，future 只 是 调度 执行 某 物 的 结果 。 在 asyncio 包 中 ，BaseEventLoop. 
create_task(...) 方法 接收 一 个 协 程 ， 排 定 它 的 运行 时 间 ， 然 后 返回 一 个 asyncio.Task 实 
例 一 一 也 是 asyncio. Future 类 的 实例 ， 因 为 Task 是 Future 的 子 类 ， 用 于 包装 协 程 。 这 与 
调用 Executor.submit(...) 方法 创建 concurrent.futures.Future 实例 是 一 个 道理 。 



































与 concurrent.futures.Future 类 似 ，asyncio.Future 类 也 提供 了 .done()、.add_done_ 
callback(...) 和 .result() 等 方法 。 前 两 个 方法 的 用 法 与 17.1.3 市 所 述 的 一 样 ， 不 
过 .result() 方法 差别 很 大 。 


asyncio.Future 类 的 .result() 方法 没有 参数 ， 因 此 不 能 指定 超时 时 间 。 此 外 ， 如 果 调 
用 .result() 方法 时 future 还 没 运行 完毕 ， 那 么 .result() 方法 不 会 阻塞 去 等 待 结果 ， 而 
是 抛 出 asyncio.InvalidStateError 异常 。 


然而 ， 获 取 asyncio. Future 对 象 的 结果 通常 使 用 yield from， 从 中 产 出 结果 ， 如 示例 18-8 
所 示 。 


使 用 yield from 处 理 future， 等 待 future 运行 完毕 这 一 步 无 需 我 们 关心 ， 而 且 不 会 阻塞 事 
件 循 环 ， 因 为 在 asyncio fA, yield from 的 作用 是 把 控制 权 还 给 事件 循环 。 


注意 ， 使 用 yield from 处 理 future 与 使 用 add_done_callback 方法 处 理 协 程 的 作用 一 样 : 

延迟 的 操作 结束 后 ， 事 件 循环 不 会 触发 回调 对 象 ， 而 是 设置 future 的 返回 值 ， 而 yield 

From 表达 式 则 在 暂停 的 协 程 中 生成 返回 值 ， 恢 复 执行 协 程 。 

总 之 ， 因 为 asyncio.Future 类 的 目的 是 与 yield from 一 起 使 用 ， 所 以 通常 不 需要 使 用 以 下 

方法 。 

。 无 需 调 用 my_future.add_done_callback(...)， 因 为 可 以 直接 把 想 在 future 运行 结束 后 
执行 的 操作 放 在 协 程 中 yield from my_future 表达 式 的 后 面 。 这 是 协 程 的 一 大 优势 : 协 
程 是 可 以 暂停 和 恢复 的 函数 。 

。 无 需 调 用 my_future.result()， 因 为 yield from 从 future 中 产 出 的 值 就 是 结果 (例如 ， 


result = yield from my_future), 


当然 ， 有 时 也 需要 使 用 .done(), .add_done_callback(...) 和 .result() 方法 。 但 是 一 般 
情况 下 ，asyncio.Future Xt% H yield from 驱动 ， 而 不 是 靠 调用 这 些 方法 驱动 。 


下 面 分 析 yield from 和 asyncio 包 的 API 如 何 拉 近 future、 任 务 和 协 程 的 关系 。 


18.1.2 ”从 future、 任 务 和 协 程 中 产 出 

在 asyncio 包 中 ，future 和 协 程 关系 紧密 ， 因 为 可 以 使 用 yieLd from 从 asyncio.Future 
对 象 中 产 出 结果 。 这 意味 着 ， 如 果 foo 是 协 程 函数 (调用 后 返回 协 程 对 象 )， 抑 或 是 返 
E] Future 或 Task 实例 的 普通 函数 ， 那 么 可 以 这 样 写 : res = yield from foo()。 这 是 
asyncio 包 的 API 中 很 多 地 方 可 以 互 换 协 程 与 future 的 原因 之 一 。 


为 了 执行 这 些 操作 ， 必 须 排 定 协 程 的 运行 时 间 ， 然 后 使 用 asyncio. Task 对 象 包装 协 程 。 对 
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协 程 来 说 ， 获 取 Task 对 象 有 两 种 主要 方式 。 
asyncio.async(coro_or_future, *, loop=None) 


这 个 函数 统一 了 协 程 和 和 ture: 第 一 个 参数 可 以 是 二 者 中 的 任何 一 个 。 如 果 是 Future 或 
Task 对 象 ， 那 就 原封 不 动 地 返回 。 如 果 是 协 程 ， 那 么 async 函数 会 调用 loop.create_ 
task(...) 方法 创建 Task 对 象 。Loop= 关键 字 参 数 是 可 选 的 ， 用 于 传人 事件 循环 ， 如 有 果 
RAA, ABZ async 函数 会 通过 调用 asyncio.get_event_loop() 函数 获取 循环 对 象 。 

BaseEventLoop.create_task(coro) 
这 个 方法 排 定 协 程 的 执行 时 间 ， 返 回 一 个 asyncio.Task 对 象 。 如 果 在 自 定 义 的 
BaseEventLoop 子 类 上 调用 ， 返 回 的 对 象 可 能 是 外 部 库 (40 Tornado) 中 与 Task 类 兼容 
的 某 个 类 的 实例 。 

BaseEventLoop.create_task(...) 方法 只 在 Python 3.4.2 及 以 上 版 本 中 可 用 。 如 


果 是 Python 3.3 或 Python 3.4 的 旧版 ， 要 使 用 asyncio.async(...) 函数 ,或 
者 从 PyPI 中 安装 较 新 的 asyncio 版 本 (https://pypi.python.org/pypi/asyncio) ə 















































asyncio 包 中 有 多 个 函数 会 自动 (内 部 使 用 的 是 asyncio.async 函数 ) 把 参数 指定 的 协 程 包 
JETE asyncio.Task 对 象 中 ， 例 如 BaseEventLoop.run_until_complete(...) 方法。 


如 果 想 在 Python 控制 台 或 者 小 型 测试 脚本 中 试验 future 和 协 程 ， 可 以 使 用 下 述 代码 片 段 : 


>>> import asyncio 
>>> def run_sync(coro_or_future): 
loop = asyncio.get_event_loop() 
return Loop.run_until_complete(coro_or_future) 








>>> a = run_sync(some_coroutine()) 


在 asyncio J AY X #4 HA, “18.5.3. Tasks and coroutines” 一 节 (https://docs.python.org/3/ 
library/asyncio-task.html) 说 明了 协 程 、future 和 任务 之 间 的 关系 。 其 中 有 个 注解 说道 ， 


这 份 文档 把 一 些 方法 说 成 是 协 程 ， 即 使 它们 其 实 是 返回 Future 对 象 的 普通 Python $% 
数 。 这 是 故意 的 ， 为 的 是 给 以 后 修改 这 些 防 数 的 实现 留 下 余地 。 


掌握 这 些 基 础 知识 后 ， 接 下 来 要 分 析 异 步 下 载 国旗 的 fags_asyncio.py 脚本 。 这 个 脚本 的 用 
法 在 示例 17-1 (第 17 章 ) 中 与 依 序 下 载 版 和 线程 池 版 一 同 演示 过 。 


18.2 ”使 用 asyncio 和 aiohttp 包 下 载 


从 Python 3.4 起，asyncio 包 只 直接 支持 TCP 和 UDP。 如 果 想 使 用 HTTP 或 其 他 协议 ， 那 
么 要 借助 第 三 方 包 。 当 下 ， 使 用 asyncio 实现 HTTP 客户 端 和 服务 器 时 ， 使 用 的 似乎 都 是 





















































注 3: 摘自 Petr Viktorin 于 2014 年 9 月 11 日 在 Python-ideas 邮件 列表 中 发 布 的 消息 (https://mail.python.org/ 
pipermail/python-ideas/2014-September/029294.html) 。 
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aiohttp J, 


示例 18-5 是 下 载 国旗 的 flags_asyncio.py 脚本 的 完整 代码 清单 。 运 作 方 式 简 述 如 下 。 














(1) 首先 ， 在 download_many 函数 中 获取 一 个 事件 循环 ， 处 理 调用 download_one 函数 生成 的 





几 个 协 程 对 象 。 
(2) asyncio 事件 循环 依次 激活 各 个 协 程 。 


(3) 客 户 代码 中 的 协 程 (如 get_flag) fi A] yield from 把 职责 委托 给 库 里 的 协 程 〈 如 








aiohttp.request) 时 ， 控 制 权 交还 事件 循环 ， 执 行 之 前 排 定 的 协 程 。 
(4) 事件 循环 通过 基于 回调 的 低层 API， 在 阻塞 的 操作 执行 完毕 后 获得 通知 。 
(5) 获得 通知 后 ， 主 循环 把 结果 发 给 暂停 的 协 程 。 











(6) 协 程 向 前 执行 到 下 一 个 yield from 表达 式 ， 例 如 get_flag 函数 中 的 yield from resp. 





read()。 事 件 循环 再 次 得 到 控制 权 ， 重复 第 4~6 步 ， 直 到 事件 循环 终止 。 








这 与 16.9.2 节 所 见 的 示例 类 似 。 在 那个 示例 中 ， 主 循环 依次 启动 多 个 出 租车 进程 ， 各 个 








H 

















租车 进程 产 出 结果 后 ， 主 循环 调度 各 个 出 租车 的 下 一 个 事件 (未 来 发 生 的 事 ) ， 然 后 激活 队 
列 中 的 下 一 个 出 租车 进程 。 那 个 出 租车 仿真 简单 得 多 ， 主 循环 易于 理解 。 不 过 ， 在 asyncio 














中 ， 基 本 的 流程 是 一 样 的 ， 在 一 个 单线 程 程序 中 使 用 主 循环 依次 激活 队列 里 的 协 程 。 











协 程 向 前 执行 儿 步 ， 然 后 把 控制 权 让 给 主 循环 ， 主 循环 再 激活 队列 里 的 下 一 个 协 程 。 
下 面 详细 分 析 示 例 18-5。 
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示例 18-5 flags_asyncio.py: 使 用 asyncio Fil aiohttp 包 实 现 的 异步 下 载 脚本 


import asyncio 
import aiohttp @ 


from flags import BASE_URL, save_flag, show, main @ 


@asyncio.coroutine © 
def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) @ 
image = yield from resp.read() @ 
return image 


@asyncio.coroutine 

def download_one(cc): @ 
image = yield from get_flag(cc) @ 
show(cc) 
save_flag(image, cc.lower() + '.gif') 
return cc 


def download_many(cc_list): 
loop = asyncio.get_event_loop() O 
to_do = [download_one(cc) for cc in sorted(cc_list)] © 
wait_coro = asyncio.wait(to_do) @ 
res, _ = loop.run_until_complete(wait_coro) @ 


各 个 
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loop.close() 四 


return len(res) 


if _name == ' main_ 


main(download_many) 


O 必须 安装 aiohttp 包 ， 它 不 在 标准 库 中 。 

@ 重用 flags 模块 ( 见 示例 17-2) 中 的 一 些 函 数 。 

© 协 程 应 该 使 用 @asyncio.coroutine 装饰 。 

O 阻塞 的 操作 通过 协 程 实现 ， 客 户 代 码 通过 yield from 把 职责 委托 给 协 程 ， 以 便 异步 运 
行 协 程 。 

O 读 取 响 应 内 容 是 一 项 单独 的 异步 操作 。 

@ download_one 国 数 也 必须 是 协 程 ， 因 为 用 到 了 yield from, 

O 与 依 序 下 载 版 download_one 函数 唯一 的 区 别 是 这 一 行 中 的 yield from, 国 数 定义 体 中 
相 races FE 

© 调用 。 ood _one es PN 然后 构建 一 个 生成 器 对 象 列表 。 

(10) ee A wait， 但 它 不 是 阻塞 型 函数 。wait 是 一 个 协 程 ， 等 传 给 它 的 所 有 协 
程 运行 完毕 后 结束 (这 是 wait 函数 的 默认 行为 ， 参 见 这 个 示例 后 面 的 说 明 )。 

(11) o 直到 wait_coro 运行 结束 ， 事 件 循 环 运行 的 过 程 中 ， 这 个 脚本 会 在 这 里 
阻塞 。 我 们 忽略 run_until_complete 方法 返回 的 第 二 个 元 素 。 下 文 说 明 原 因 。 

O 关闭 事件 循环 。 


如 果 事 件 循环 是 上 下 文 管理 器 就 好 了 ， 这 样 我 们 就 可 以 使 用 with 块 确保 循环 
会 被 关 团 。 然 而 ， 实 际 情况 是 复杂 的 ， 客 户 代码 绝 不 会 直接 创建 事件 循 坏 ， 而 
是 调用 asyncio.get_event_Loop() 函数 ， 歼 取 事件 循环 的 引用 。 而 且 有 时 我 们 
的 代码 不 “拥有 ”事件 循环 ， 因 此 关闭 事件 循环 会 出 错 。 例 如 ， 使 用 Quamash 
(https://pypi.python.org/pypi/Quamash/) 这 种 包 实 现 的 外 部 GUI 事件 循环 时 ，Qt 
库 负 责 在 退出 应 用 时 关闭 事件 循环 。 
















































































asyncio.wait(...) 协 程 的 参数 是 一 个 由 future 或 协 程 构成 的 可 迭代 对 象 ，watt 会 分 别 把 各 个 
协 程 包装 进 一 个 Task 对 象 。 最 终 的 结果 是 ，wait 处 理 的 所 有 对 象 都 通过 某 种 方式 变 成 Future 
类 的 实例 。wait 是 协 程 函数 ， 因 此 返回 的 是 一 个 协 程 或 生成 器 对 象 ，wait_coro 变量 中 存储 的 
正 是 这 种 对 象 。 为 了 驱动 协 程 ， 我 们 把 协 程 传 给 loop.run_until_complete(...) 方 法 。 


loop.run_until_complete 方法 的 参数 是 一 个 future 或 协 程 。 如 果 是 协 程 ，run_untitL_ 
es 方法 与 wait 函数 一 样 ， 把 协 程 包装 进 一 个 Task 对 象 中 。 协 程 、future 和 任务 都 
能 由 yield from 驱动 ， 这 正 是 run_until_complete 方法 对 wait pK Aik El AY wait_coro 对 
ers wait_coro 运行 结束 后 返回 一 个 元 组 ， 第 一 个 元 素 是 一 系列 结束 的 future， 第 
二 个 元 素 是 一 系列 未 结束 的 future。 在 示例 18-5 中 ， 第 二 个 元 素 始终 为 空 ， 因 此 我 们 把 




















注 4: 可 以 使 用 pip install aiohttp 命令 安装 aiohttp 包 。 一 一 编者 注 
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已 赋值 给 _， 将 其 忽略 。 但 是 wait 国 数 有 两 个 关键 字 参 数 ， 如 果 设 定 了 可 能 会 返回 未 结 
AY future; 这 两 个 参数 是 timeout 和 return_when。 详 情 参见 asyncio.wait 国 数 的 文档 
(https://docs.python.org/3/library/asyncio-task.html#asyncio.wait) 。 


注意 ， 在 示例 18-5 中 不 能 重用 flags.py 脚本 (UL aN Pil 17-2) 中 的 get_flag 函数 ， 因 为 那 
个 函数 用 到 了 requests 库 ， 执 行 的 是 阻塞 型 IO 操作 。 为 了 使 用 asyncio 包 ， 我 们 必须 把 
每 个 访问 网 络 的 函数 改 成 异步 版 ， 使 用 yield from 处 理 网 络 操作 ， 这 样 才能 把 控制 权 交还 
给 事件 循环 。 在 get_flag 函数 中 使 用 yield fromn， 意 味 着 它 必须 像 协 程 那样 驱动 。 


因此 ， 不 能 重用 flags_threadpool.py 脚本 (UL as Fi] 17-3) 中 的 download_one 函数 。 示 例 
18-5 中 的 代码 使 用 yield from 驱动 get_flag 函数 ， 因 此 download_one 国 数 本 身 也 得 是 协 
程 。 每 次 请 求 时 ，download_many 国 数 会 创建 一 个 download_one 协 程 对 象 ， 这些 协 程 对 象 
先 使 用 asyncio.wait 协 程 包装 ， 然 后 由 loop.run_until_complete 方法 驱动 。 


asyncio 包 中 有 很 多 新 概念 要 掌握 ， 不 过 ， 如 果 你 采用 Guido van Rossum 建议 的 一 个 技巧 ， 
= E 轻 松 地 理解 示例 18-5 的 总 体 逻 辑 : KAIR, iA yield fron 关键 字 。 这 样 做 之 
， 你 会 发 现 示 例 18-5 中 的 代码 与 纯粹 依 序 下 载 的 代码 一 样 易于 阅读 。 


比如 说 ， 以 这 个 协 程 为 例 : 


@asyncio.coroutine 
def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) 
image = yield from resp.read() 
return image 


我 们 可 以 假设 它 与 下 述 函 数 的 作用 相同 ， 只 不 过 协 程 版 从 不 阻塞 : 


def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc. lower()) 
resp = aiohttp.request('GET', url) 
image = resp.read() 
return image 


se from foo 句法 能 防止 阻塞 ， 是 因为 当前 协 程 〈 即 包含 yield from 代码 的 委派 生成 


器 ) 暂停 后 ， ee 再 去 驱动 其 他 协 程 ，foo future 或 协 程 运行 完毕 
后 ， 把 结果 返回 给 暂停 的 协 程 ， 将 其 恢复 。 


在 16.7 节 的 末尾 ， 我 对 yield from 的 用 法 做 了 两 点 陈述 ， 摘 要 如 下 。 

。 使 用 yield fron 链接 的 多 个 协 程 最 终 必须 由 不 是 协 程 的 调用 方 驱动 ， 调 用 方 显 式 或 隐 
式 ( 例 如 ,在 for 循环 中 ) 在 最 外 层 委 派生 成 器 上 调用 next(...) 函数 或 .send(.….) 方 法 。 

。 链条 中 最 内 层 的 子 生成 器 必须 是 简单 的 生成 器 (只 使 用 yield) 或 可 和 迭代 的 对 象 。 

在 asyncio (HY API 中 使 用 yield fron 时 ， 这 两 点 都 成 立 ， 不 过 要 注意 下 述 细 市 。 


。 我 们 编写 的 协 程 链 条 始终 通过 把 最 外 层 委 派生 成 器 传 给 asyncio 包 API 中 的 某 个 函数 (如 
loop.run_until_complete(...)) 驱动 。 


也 就 是 说 ,使 用 asyncio 包 时 ,我 们 编写 的 代码 不 通过 调用 next(.…) 函数 或 .send(...) 
方法 驱动 协 程 一 一 这 一 点 由 asyncio 包 实 现 的 事件 循环 去 做 。 
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。 我 们 编写 的 协 程 链条 最 终 通 过 yield from 把 职责 委托 给 asyncio 包 中 的 某 个 协 程 国 数 
或 协 程 方法 (例如 示例 18-2 中 的 yield from asyncio.sleep(...)), 或 者 其 他 库 中 实 
现 高 层 协议 的 协 程 ( 例 如 示例 18-5 中 get_flag 协 程 里 的 resp = yield from aiohttp. 
request('GET', url)), 

也 就 是 说 ， 最 内 层 的 子 生 成 器 是 库 中 真正 执行 IO 操作 的 函数 ， 而 不 是 我 们 自己 编写 的 
概括 起 来 就 是 : 使 用 asyncio 包 时 ， 我 们 编写 的 异步 代码 中 包含 由 asyncio 本 身 驱动 的 协 
程 ( 即 委派 生成 器 )， 而 生成 器 最 终 把 职责 委托 给 asyncio 包 或 第 三 方 库 (如 aiohttp) 中 
的 协 程 。 这 种 处 理 方式 相当 于 架 起 了 管道 ， 让 asyncio 事件 循环 (通过 我 们 编写 的 协 程 ) 
驱动 执行 低层 异步 IO 操作 的 库 国 数 。 
现在 可 以 回答 第 17 章 提出 的 那个 问题 了 。 

。 flags_asyncio.py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎么 会 比 后 者 快 5 倍 ? 


18.3 ”避免 阻塞 型 调用 

Ryan Dahl (Node.js 的 发 明 者 ) 在 介绍 他 的 项 目 背 后 的 哲学 时 说 :“ 我 们 处 理 IO 的 方式 彻 

底 错 了 。”“ 他 把 执行 硬盘 或 网 络 IO 操作 的 函数 定义 为 阻塞 型 函数 ,主张 不 能 像 对 待 非 阻塞 

型 函数 那样 对 待 阻塞 型 函数 。 为 了 说 明 原 因 ， 他 展示 了 表 18-1 中 的 前 两 列 。 

表 18-1: 使 用 现代 的 电脑 从 不 同 的 存储 介质 中 读 取 数 据 的 延迟 情况 ， 第 三 栏 按 比例 换算 成 
具体 的 时 间 ， 便 于 人 类 理解 












































存储 介质 CPU 周期 按 比例 换算 成 “人 类 时 间 ” 
L1 缓存 3 3 秒 

L2 缓存 14 14 fb 

RAM 250 250 Fb 

硬盘 41 000 000 1.3 年 

网 络 240 000 000 7.6 年 


为 了 理解 表 18-1， 请 记 住 一 点 : 现代 的 CPU 拥有 GHz 数量 级 的 时 钟 频 率 ， 每 秒 钟 能 运行 
几 十 亿 个 周期 。 假 设 CPU 每 秒 正好 运行 十 亿 个 周期 ， 那 么 CPU 可 以 在 一 秒 钟 内 读 取 LI 
缓存 333 333 333 次 ， 读 取 网 络 4 次 (只 有 4 次 )。 表 18-1 中 的 第 三 栏 是 拿 第 二 栏 中 的 各 个 
值 乘 以 固定 的 因子 得 到 的 。 因 此 ， 在 另 一 个 世界 中 ， 如 果 读 取 LI 缓存 要 用 3 秒 ， 那 么 读 
取 网 络 要 用 7.6 年 ! 


有 两 种 方法 能 避免 阻塞 型 调用 中 止 整个 应 用 程序 的 进程 


。 在 单独 的 线程 中 运行 各 个 阻塞 型 操作 
。 把 每 个 阻塞 型 操作 转换 成 非 阻塞 的 异步 调用 


使 用 多 个 线程 是 可 以 的 ， 但 是 各 个 操作 系统 线程 (Python 使 用 的 是 这 种 线程 ) 消耗 的 内 存 






































注 5:“Introduction to Node.js”(https:Wwww.youtube.com/watch?v=M-sc73Y-zQA) 视频 4:55 Xb. 
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IEF (具体 的 量 取决 于 操作 系统 种 类 )。 如 果 要 处 理 几 千 个 连接 ， 而 每 个 连接 都 使 用 
一 个 线程 的 话 ， 我 们 负担 不 起 。 


为 了 降低 内 存 的 消耗 ， 通常 使 用 回调 来 实现 异步 调用 。 这 是 一 种 低层 概念 ， 类 似 于 所 有 并 
发 机 制 中 最 古老 、 最 原始 的 那 种 一 一 硬件 中 断 。 使 用 回调 时 ， 我 们 不 等 待 啊 应 ， 而 是 注册 
一 个 函数 ， 在 发 生 某 件 事 时 调用 。 这 样 ， 所 有 调用 都 是 非 阻塞 的 。 因 为 回调 简单 ， 而 且 消 
耗 低 ， 所 以 Ryan Dahl 拥护 这 种 方式 。 


当然 ， 只 有 异步 应 用 程序 底层 的 事件 循环 能 依靠 基础 设置 的 中 断 、 线 程 、 轮 询 和 后 台 进 程 
等 ， 确 保 多 个 并 发 请 求 能 取得 进展 并 最 终 完成 ， 这 样 才能 使 用 回调 。" 事件 循环 获得 响应 
后 ， 会 回 过 头 来 调用 我 们 指定 的 回调 。 不 过 ， 如 果 做 法 正确 ， 事 件 循 环 和 应 用 代码 共用 的 
主线 程 绝 不 会 阻塞 。 

把 生成 器 当 作协 程 使 用 是 异步 编程 的 另 一 种 方式 。 对 事件 循环 来 说 ， 调 用 回调 与 在 暂停 的 
协 程 上 调用 .send() 方法 效果 差不多 。 各 个 暂停 的 协 程 是 要 消耗 内 存 ， 但 是 比 线程 消耗 的 
内 存 数量 级 小 。 而 且 ， 协 程 能 避免 可 怕 的 “回调 地 狱 ”， 这 一 点 会 在 18.5 PTE. 


现在 你 应 该 能 理解 为 什么 flags_asyncio.py 脚本 的 性 能 比 flags.py 脚本 高 5 倍 了 : flags.py 
脚本 依 序 下 载 ， 而 每 次 下 载 都 要 用 几 十 亿 个 CPU 周期 等 竺 结果。 其 实 ，CPU 同时 做 了 很 
多 事 ， 只 是 没有 运行 你 的 程序 。 与 此 相 比 ， 在 flags_asyncio.py 脚本 中 ， 在 download_many 
函数 中 调用 Loop.run_until_complete 方法 时 ， 事 件 循环 驱动 各 个 download_one 协 程 ， 运 
行 到 第 一 个 yield from 表达 式 处 ， 那 个 表达 式 又 驱动 各 个 get_flag 协 程 ， 运 行 到 第 一 个 
yield from 表达 式 处 ， 调 用 aiohttp.request(...) 国 数 。 这 些 调用 都 不 会 阻塞 ， 因 此 在 零 
点 几 秒 内 所 有 请 求全 部 开始 。 

asyncio 的 基础 设施 获得 第 一 个 响应 后 ， 事 件 循环 把 响应 发 给 等 待 结果 的 get_flag 协 程 。 
得 到 响应 后 ，get_flag 向 前 执行 到 下 一 个 yield from 表达 式 处 ， 调 用 resp.read() Wis, 
然后 把 控制 权 还 给 主 循环 。 其 他 响应 会 陆续 返回 (因为 请 求 几乎 同时 发 出 )。 所 有 get_ 
Flag 协 程 都 获得 结果 后 ， 委 派生 成 器 download_one 恢复 ， 保 存 图 像 文件 。 


为 了 尽量 提高 性 能 ，save_flag 函数 应 该 执行 异步 操作 ， 可 是 asyncio 包 目 
前 没有 提供 异步 文件 系统 API (Node 有 )。 如 果 这 是 应 用 的 瓶颈 ， 可 以 使 用 
loop.run_in_executor Fy 法 (https://docs.python.org/3/library/asyncio-eventloop. 






































































































































html#asyncio.BaseEventLoop.run_in_executor), £28 fE ib iz FF save_flag pK 
数 。 示 例 18-9 会 说 明 做 法 。 


因为 异步 操作 是 交叉 执行 的 ， 所 以 并 发 下 载 多 张 图 像 所 需 的 总 时 间 比 依 序 下 载 少 得 多 。 我 
使 用 asyncio 包 发 起 了 600 个 HTTP 请 求 ， 获 得 所 有 结果 的 时 间 比 依 序 下 载 快 70 倍 。 


现在 回 到 那个 HTTP 客户 端 示 例 ， 看 看 如 何 显示 动态 的 进度 条 ， 并 且 恰 当地 处 理 错误 。 











注 6: 其 实 ， 虽 然 Node.js 不 支持 使 用 JavaScript 编写 的 用 户 级 线程 ， 但 是 在 背后 却 借 助 Libeio 库 使 用 Cis 
言 实现 了 线程 池 ， 以 此 提供 基于 回调 的 文件 API 一 一 因为 从 2014 年 起 ， 大 多 数 操作 系统 都 不 提供 稳 
定 且 可 移植 的 异步 文件 处 理 API 了 。 
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18.4 改进 asyncio 下 载 脚本 


17.5 市 说 过 ，flLags2 系列 示例 的 命令 行 接口 相同 。 





本 节 要 分 析 这 个 系列 中 的 flags2_ 


asyncio.py 脚本 。 例 如 ， 示 例 18-6 展示 如 何 使 用 100 个 并 发 请 求 (-m 100) 从 ERROR 服务 


器 中 下 载 100 面 国旗 (-al 100), 





示例 18-6 ”运行 flags2_asyncio.py 脚本 
$ python3 flags2_asyncio.py -s ERROR -al 100 -m 
ERROR site: http://localhost:8003/flags 
Searching for 100 flags: from AD to LK 
100 concurrent connections will be used. 
73 flags downloaded. 
27 errors. 
Elapsed time: 0.64s 





测试 并 发 客户 端 要 谨慎 





























(https://github.com/fluentpython/example-code 


100 


尽管 线程 版 和 asyncio 版 HTTP 客户 端的 下 载 总 时 间 相 差 无 几 ， 但 是 asyncio 
版 发 送 请 求 的 速度 更 快 ， 因 此 很 有 可 能 对 服务 器 发 起 DoS 攻击 。 为 了 全 速 测 
试 这 些 并 发 客户 端 ， 应 该 在 本 地 搭建 HTTP 服务 器 ， 详 情 参 见 本 书 代码 仓库 








) 中 17-futures/countries/ 目录 里 的 


README. rst 文件 (https://github.com/fluentpython/example-code/blob/master/17- 


futures/countries/README.tst) 。 





下 面 分 析 flags2_asyncio.py 脚本 的 实现 方式 。 











18.4.1 使 用 asyncio.as_compLeted 函 数 


在 示例 18-5 中 ， 我 把 一 个 协 程 列表 传 给 asyncio 


.Wait 图 数 ， 经 由 Loop.run_untiL_ 


complete 方法 驱动 ， 全 部 协 程 运行 完毕 后 ， 这 个 函数 会 返回 所 有 下 载 结 果 。 可 是 ， 为 了 更 
新 进度 条 ， 各 个 协 程 运行 结束 后 就 要 立即 获取 结果 。 在 线程 池 版 示例 中 〈 见 示例 17-14)， 








为 了 集成 进度 条 ， 我 们 使 用 的 是 as_completed 生成 器 
生成 器 函数 的 相应 版 本 。 


为 了 使 用 asyncio 包 实 现 flags? 示例 ， 我 们 要 重 写 








eee; A, asyncio 包 提 供 了 这 个 


几 个 函数 ， 重 写 后 的 函数 可 以 供 


concurrent.future 版 重用 。 之 所 以 要 重 写 ， 是 因为 在 使 用 asyncio 包 的 程序 中 只 有 一 
个 主线 程 ， 而 在 这 个 线程 中 不 能 有 阻塞 型 调用 ， 因 为 事件 循环 也 在 这 个 线程 中 运行 。 所 
以 ， 我 要 重 写 get_flag 国 数 ， 使 用 yield fronm 访问 网 络 。 现 在 ， 由 于 get_flag 是 协 程 ， 
download_one 国 数 必 须 使 用 yield from 驱动 它 ， 因 此 download_one 自己 也 要 变 成 协 程 。 之 

















前 ， 在 示例 18-5 中 ，download_one 由 download_many 4 


kz: download_one pk 4x FH asyncio. 


wait 函数 调用 ， 然 后 传 给 toop.run_until_complete 方 法。 现在， 为 了 报告 进度 并 处 理 错 
te, 我们 要 更 精确 地 控制 ， 所 以 我 把 download_many 函数 中 的 大 多 数 逻 辑 移 到 一 个 新 的 协 
程 downloader_coro 中 ， 只 在 download_many 国 数 中 设置 事件 循环 ， 以 及 调度 downloader_ 


coro 协 程 。 
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示例 18-7 展示 的 是 flags2_asyncio.py 脚本 的 前 半 部 分 ， 定 义 get_flag 和 download_one 协 
程 。 示 例 18-8 列 出 余下 的 源码 ， 定 义 downloader_coro 协 程 和 download_many 函数 。 


示例 18-7 flags2_asyncio.py: 脚本 的 前 半 部 分 ; 余下 的 代码 在 示例 18-8 中 
import asyncio 
import collections 





import aiohttp 
from aiohttp import web 
import tqdm 


from flags2_common import main, HTTPStatus, Result, save_flag 


# 默认 设 为 较 小 的 值 ,防止 远程 网 站 出 错 

# 例如 503 - Service Temporarily Unavailable 
DEFAULT_CONCUR_REQ = 5 

MAX_CONCUR_REQ = 1000 





class FetchError(Exception): © 
def _ init__(self, country_code): 
self.country_code = country_code 


@asyncio.coroutine 
def get_flag(base_url, cc): @ 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) 
if resp.status == 200: 
image = yield from resp.read() 
return image 
elif resp.status == 404: 
raise web.HTTPNotFound() 
else: 
raise aiohttp.HttpProcessingError( 
code=resp.status, message=resp.reason, 
headers=resp.headers) 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): © 
try: 
with (yield from semaphore): @ 
image = yield from get_flag(base_url, cc) © 
except web.HTTPNotFound: @ 
status = HTTPStatus.not_found 
msg = 'not found' 
except Exception as exc: 
raise FetchError(cc) from exc @ 
else: 
save_flag(image, cc.lower() + '.gif') O 
status = HTTPStatus.ok 
msg = 'OK' 
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if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


@ 这 个 自 定 义 的 异常 用 于 包装 其 他 HTTP 或 网 络 异 常 ， 并 获取 country_code， 以 便 报 告 
错误 。 

@ get_flag 协 程 有 三 种 返回 结果 : 返回 下 载 得 到 的 图 像 ，HTTP 响应 码 为 404 时 ， 抛 出 
web.HTTPNotFound 异常 ;返回 其 他 HTTP 状态 码 时 ， 抛 出 aiohttp.HttpProcessingError 
异常 。 

© semaphore 参数 是 asyncio.Semaphore 类 (https://docs.python.org/3/library/asyncio-sync.html# 
asyncio. Semaphore) 的 实例 。Semaphore 类 是 同步 装置 ， 用 于 限制 并 发 请 求 数量 。 

© 在 yield from 表达 式 中 把 semaphore 当成 上 下 文 管理 器 使 用 ， 防 止 阻塞 整个 系统 : 如 果 
semaphore 计数 器 的 值 是 所 人 允许 的 最 大 值 ， 只 有 这 个 协 程 会 阻塞 。 

O 退出 这 个 with 语句 后 ，semaphore 计数 器 的 值 会 递减 ， 解 除 阻 塞 可 能 在 等 待 同一 个 
semaphore 对 象 的 其 他 协 程 实例 。 

O 如 果 没 找到 国旗 ， 相 应 地 设置 Result 的 状态 。 

O 其 他 异常 当 作 FetchError 抛 出 ， 传 入 国家 代码 ， 并 使 用 “PEP 3134 一 Exception 
Chaining and Embedded Tracebacks” (https:Wwww.python.org/dev/peps/pep-3134/) 引入 的 
raise X from Y 句法 链接 原来 的 异常 。 

O 这 个 函数 的 作用 是 把 国旗 文件 保存 到 硬盘 中 。 


可 以 看 出 ， 与 依 序 下 载 版 相 比 ， 示 例 18-7 中 的 get_flag 和 download_one 国 数 改动 幅度 很 
大 ， 因 为 现在 这 两 个 函数 是 协 程 ， 要 使 用 yield from 做 异步 调用 。 


对 于 我 们 分 析 的 这 种 网 络 客户 端 代码 来 说 ， 一 定 要 使 用 某 种 限 流 机 制 ， 防 止 向 服务 器 
发 起 太 多 并 发 请 求 ， 因 为 如 果 服 务 器 过 载 ， 那 么 系统 的 整体 性 能 可 能 会 下 降 。flags2_ 
threadpool.py 脚本 (UL AS fi) 17-14) 限 流 的 方法 是 ， 在 download_many 国 数 中 实例 化 
ThreadPoolExecutor 类 时 把 max_workers 参数 的 值 设 为 concur_req， 只 在 线程 池 中 启动 
concur_req 个 线程 。 在 flags2_asyncio.py 脚本 中 我 的 做 法 是 ， 在 downloader_coro 国 数 中 
创建 一 个 asyncio.Semaphore 实例 (在 后 面 的 示例 18-8 中 )， 然 后 把 它 传 给 示例 18-7 中 
download_one 国 数 的 semaphore 参数 。” 


Semaphore 对 象 维护 着 一 个 内 部 计数 器 ， 若 在 对 象 上 调用 acquire) 协 程 方法 ， 计 数 器 则 
递减 ， 若 在 对 象 上 调用 .release() 协 程 方法 ， 计 数 器 则 递增 ,计数 器 的 初始 值 在 实例 化 
Semaphore 时 设 定 ， 如 downloader_coro 国 数 中 的 这 一 行 所 示 ; 


semaphore = asyncio.Semaphore(concur_req) 


如 果 计 数 器 大 于 零 ， 那 么 调用 acquire) 方法 不 会 阻塞 ， 可 是 ， 如 果 计 数 器 为 零 ， 那 
么 .acquire() 方法 会 阻塞 调用 这 个 方法 的 协 程 ， 直 到 其 他 协 程 在 同一 个 Semaphore 对 
象 上 调用 .retease() 方法 ， 让 计数 器 递增 。 在 示例 18-7 中 ， 我 没有 调用 .acquire() 
或 .release() 方法 ， 而 是 在 download_one 函数 中 的 下 述 代码 块 中 把 semaphore 当 作 上 下 文 
管理 器 使 用 : 











































































































注 7: 感谢 Guto Maia 指出 本 书 的 草稿 没有 说 明 Semaphore 类 。 
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with (yield from semaphore): 
image = yield from get_flag(base_url, cc) 


这 段 代 码 保证 ， 任 何 时 候 都 不 会 有 超过 concur_req 个 get_flag 协 程 启动 。 


现在 来 分 析 示 例 18-8 中 这 个 脚本 余下 的 代码 。 注 意 ，download_many 国 数 中 以 前 的 大 多 数 
功能 现在 都 在 downloader_coro 协 程 中 。 我 们 必须 这 么 做 ， 因 为 必须 使 用 yield from 获 
Hx asyncio.as_completed pK #77 HH AY future 的 结果 ， 所 以 as_completed 国 数 必 须 在 协 程 
中 调用 。 可 是 ， 我 不 能 直接 把 download_many 函数 改 成 协 程 ， 因 为 必须 在 脚本 的 最 后 一 行 
把 download_many 国 数 传 给 flags2_common 模块 中 定义 的 main pee, By main 国 数 的 参数 
不 是 协 程 ， 而 是 一 个 普通 的 函数 。 因 此 ， 我 定义 了 downloader_coro 协 程 ， 让 它 运 行 as_ 
completed 循环 。 现 在 ，downtLoad_many 国 数 只 用 于 设置 事件 循环 ， 并 把 downloader_coro 
协 程 传 给 Loop.run_until_complete 方法 ， 调 度 downloader_coro, 
































示例 18-8 flags2_asyncio.py: 接续 示例 18-7 
@asyncio.coroutine 
def downloader_coro(cc_list, base_url, verbose, concur_req): @ 
counter = collections.Counter() 
semaphore = asyncio.Semaphore(concur_req) @ 
to_do = [download_one(cc, base_url, semaphore, verbose) 
for cc in sorted(cc_list)] © 


to_do_iter = asyncio.as_completed(to_do) @ 
if not verbose: 
to_do_iter = tqdm.tqdm(to_do_iter, total=len(cc_list)) 日 
for future in to do iter: @ 
try: 
res = yield from future @ 
except FetchError as exc: O 
country_code = exc.country_code © 
try: 
error_msg = exc.__cause__.args[0] 四 
except IndexError: 
error_msg = exc.__cause__.__class__.__name_  @ 
if verbose and error_msg: 
msg = '*** Error for {}: {}' 
print(msg.format(country_code, error_msg)) 
status = HTTPStatus.error 
else: 
status = res.status 


counter[status] += 1 四 


return counter @ 


def download_many(cc_list, base_url, verbose, concur_req): 
loop = asyncio.get_event_loop() 
coro = downloader_coro(cc_list, base_url, verbose, concur_req) 
counts = loop.run_until_complete(coro) @ 
loop.close() 四 
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return counts 


if _ name == '_ main_': 


main(download_many, DEFAULT_CONCUR_REQ, MAX_CONCUR_REQ) 


O 这 个 协 程 的 参数 与 download_many 国 数 一 样 ， 但 是 不 能 直接 调用 ， 因 为 它 是 协 程 函 数 ， 
而 不 是 像 download_many 那样 的 普通 函数 。 

Ø 创建 一 个 asyncio.Semaphore 实例 ， 最 多 人 允许 激活 concur_req 个 使 用 这 个 计数 器 的 协 程 。 

© 多 次 调用 download_one 协 程 ， 创 建 一 个 协 程 对 象 列表 。 

O 获取 一 个 返 代 器 ， 这 个 友 代 器 会 在 future 运行 结束 后 返回 future, 

O 把 友 代 器 传 给 tqdm 函数 ， 显 示 进 度 。 

O GSA AY futures 这 个 循环 与 示例 17-14 中 download_many 函数 里 的 那个 十 分 相似 ; 
不 同 的 部 分 主要 是 异常 处 理 ， 因 为 两 个 HITP Æ (requests 和 aiohttp) 之 间 有 差异 。 

@ 获取 asyncio. Future 对 象 的 结果 ， 最 简单 的 方法 是 使 用 yield from， 而 不 是 调用 
future.result() 方法 。 

© download_one 函数 抛 出 的 各 个 异常 都 包装 在 FetchError 对 象 里 ， 并 且 链 接 原来 的 异常 。 

从 FetchError 异常 中 获取 错误 发 生 时 的 国家 代码 。 
尝试 从 原来 的 异常 (cause) 中 获取 错误 消息 。 

OD 如 果 在 原来 的 异常 中 找 不 到 错误 消息 ， 使 用 所 链接 异常 的 类 名 作为 错误 消息 。 

O 记录 结果 。 

图 与 其 他 脚本 一 样 ， 返 回 计 数 器 。 

@ download_many 国 数 只 是 实例 化 downloader_coro 协 程 ， 然 后 通过 run_until_complete 方 
法 把 它 传 给 事件 循环 。 

O 所 有 工作 做 完 后 ， 关 闭 事件 循环 ， 返 回 counts, 


在 示例 18-8 中 不 能 像 示 例 17-14 那样 把 future 映 射 到 国家 代码 上 ， 因 为 asyncio.as_ 
completed 国 数 返回 的 future 与 传 给 as_completed 函数 的 future 可 能 不 同 。 在 asyncio 包 内 
部 ， 我 们 提供 的 future 会 被 不 换 成 生成 相同 结果 的 fnture。 * 


因为 失败 时 不 能 以 future 为 键 从 字典 中 获取 国家 代码 ， 所 以 我 实现 了 自 定义 的 FetchError 
异常 (如 示例 18-7 所 示 )。FetchError 包装 网 络 异常 ， 并 关联 相应 的 国家 代码 ， 因 此 在 详 
细 模 式 中 报告 错误 时 能 显示 国家 代码 。 如 果 没 有 错误 ， 那 么 国家 代码 是 for 循环 顶部 那个 
yield from future 表达 式 的 结果 。 


我 们 使 用 asyncio 包 实 现 的 这 个 示例 与 前 面 的 flags2_threadpool.py 脚本 具有 相同 的 功能 ， 
这 一 话题 到 此 结束 。 接 下 来 ， 我 们 要 改进 flags2_asyncio.py 脚本 ， 进 一 步 探索 asyncio 包 。 

在 分 析 示 例 18-7 的 过 程 中 ， 我 发 现 save_flag 函数 会 执行 硬盘 IO 操作 ， 而 这 应 该 异步 执 
行 。 下 一 布 说 明 做 法 。 































































































注 8: 关于 这 一 点 的 详细 讨论 ， 可 以 阅读 我 在 python-tulip 讨论 组 中 发 起 的 话题 ， 题 为 “Which other futures my 
come out of asyncio.as_completed?” (https://groups.google.com/forum/#!msg/python-tulip/PdA EtwpaJHs/7fqb- 
Qj2zJoJ), Guido 回复 了 ， 而 且 深入 分 析 了 as_completed 函数 的 实现 ， 还 说 明了 asyncio 包 中 future 与 协 
程 之 间 的 紧密 关系 。 
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18.4.2 ”使 用 Executor 对 象 ， 防 止 阻塞 事件 循环 


Python 社区 往往 会 忽略 一 个 事实 一 一 访问 本 地 文件 系统 会 阻塞 ， 想 当然 地 认为 这 种 操作 不 
会 受 网 络 访问 的 高 延迟 影响 (这 也 极 难 预料 )。 与 之 相 比 ，Node.js 程序 员 则 始终 说 记 ， 所 
有 文件 系统 函数 都 会 阻塞 ， 因 为 这 些 国 数 的 签名 中 指明 了 要 有 回调 。 表 18-1 已 经 指出 ， 硬 
盘 IO 阻塞 会 浪费 几 百 万 个 CPU 周期 ， 而 这 可 能 会 对 应 用 程序 的 性 能 产生 重大 影响 。 

在 示例 18-7 中 ， 阻 塞 型 函数 是 save_fLag。 在 这 个 脚本 的 线程 版 中 〈 见 示例 17-14), save_ 
Flag 函数 会 阻塞 运行 download_one 函数 的 线程 ， 但 是 阻塞 的 只 是 众多 工作 线程 中 的 一 个 。 
阻塞 型 VO 调用 在 背后 会 释放 GIL， 因 此 另 一 个 线程 可 以 继续 。 但 是 在 flags2_asyncio.py 
脚本 中 ，save_flag 函数 阻塞 了 客户 代码 与 asyncio 事件 循环 共用 的 唯一 线程 ， 因 此 保存 
文件 时 ， 整 个 应 用 程序 都 会 冻结 。 这 个 问题 的 解决 方法 是 ， 使 用 事件 循环 对 象 的 run_in_ 
executor 方法 。 

asyncio 的 事件 循环 在 背后 维护 着 一 个 ThreadPooLExecutor 对 象 ， 我 们 可 以 调用 run_in_ 
executor 方法 ， 把 可 调用 的 对 象 发 给 它 执行 。 若 想 在 这 个 示例 中 使 用 这 个 功能 ，download_ 
one 协 程 只 有 几 行 代 码 需要 改动 ， 如 示例 18-9 所 示 。 












































示例 18-9 flags2_asyncio_executorpy: 使 用 默认 的 ThreadPooLExecutor 对 象 运 行 save_flag 函数 
@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): 
image = yield from get_flag(base_url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = ‘not found' 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 
loop = asyncio.get_event_loop() @ 
loop.run_in_executor(None, @ 
save_flag, image, cc.lower() + '.gif') © 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 
@ 获取 事件 循环 对 象 的 引用 。 
@ run_in_executor 方法 的 第 一 个 参数 是 Executor 实例 ， 如 果 设 为 None， 使 用 事件 循环 的 
默认 ThreadPooLExecutor 实例 。 
余下 的 参数 是 可 调用 的 对 象 ， 以 及 可 调用 对 象 的 位 置 参数 。 
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我 测试 示例 18-9 时 ， 没 有 发 现 改 用 run_in_executor 方法 保存 图 像 文件 后 性 能 
有 明显 变化 ， 因 为 图 像 都 不 大 (平均 13KB)。 不 过 ， 如 果 编 辑 flags2 common. 
py 脚本 中 的 save_flag 函数 ， 把 各 个 文件 保存 的 字 节 数 变 成 原来 的 10 倍 (只 
需 把 fp.write(img) 改 成 fp.write(img*10))， 此 时 便 会 看 到 效果 。 下 载 的 平 
均 字 节 数 变 成 130KB 后 ， 使 用 run_in_executor 方法 的 好 处 就 体现 出 来 了 。 如 
果 下 载 包含 百 万 像素 的 图 像 ， 速 度 提升 更 明显 。 


























如 果 需 要 协调 异步 请 求 ， 而 不 只 是 发 起 完全 独立 的 请 求 ， 协 程 较 之 回调 的 好 处 会 变 得 显 而 
易 见 。 下 一 市 说 明 回调 的 问题 ， 并 给 出 解决 方法 。 


18.5 ”从 回调 到 future 和 协 程 


使 用 协 程 做 面向 事件 编程 ， 需 要 下 一 香 功 夫 才 能 掌握 ， 因 此 最 好 知道 ， 与 经 典 的 回调 式 编 
程 相 比 ， 协 程 有 哪些 改进 。 这 就 是 本 市 的 话题 。 


只 要 对 回调 式 面 向 事件 编程 有 一 定 的 经 验 ， 就 知道 “回调 地 狱 ” 这 个 术语 : 如 果 一 个 操作 
需要 依赖 之 前 操作 的 结果 ， 那 就 得 怠 套 回调 。 如 果 要 连续 做 3 次 异步 调用 ， 那 就 需要 和 骨 套 
3 层 回调 。 示 例 18-10 是 一 个 使 用 JavaScript 编写 的 例子 。 


示例 18-10 JavaScript 中 的 回调 地 狱 : 幅 套 匿名 函数 ， 也 称 为 灾难 金字 塔 
api_calli(request1, function (response1) { 
// 第 一 步 
var request2 = step1(response1); 

































































api_call2(request2, function (response2) { 
// 第 二 步 


var request3 = step2(response2); 


api_cal1l3(request3, function (response3) { 
// 第 三 步 
step3(response3); 
}); 
Ys 
}); 


在 示例 18-10 F, api_call1, api_call2 和 api_call3 是 库 国 数 ， 用 于 异步 获取 结果 。 例 
AN, api_call1 从 数据 库 中 获取 结果 ，api_call2 从 Web 服务 器 中 获取 结果 。 这 3 个 函数 
都 有 回调 。 在 JavaScript 中 ， 回 调 通 常 使 用 匿名 函数 实现 (ETE Python 示例 中 分 别 把 这 
3 个 回调 命名 为 stage1, stage2 和 stage3)。 这 里 的 step1, step2 和 step3 是 应 用 程序 中 
的 常规 函数 ， 用 于 处 理 回调 接收 到 的 响应 。 
示例 18-11 展示 Python 中 的 回调 地 狱 是 什么 样子 。 
示例 18-11 Python 中 的 回调 地 狱 : 链 式 回调 

def stage1(response1): 


request2 = step1(response1) 
api_call2(request2, stage2) 
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def stage2(response2): 
request3 = step2(response2) 
api_call3(request3, stage3) 


def stage3(response3): 
step3(response3) 


api_call1(request1, stage1) 


虽然 示例 18-11 中 的 代码 与 示例 18-10 的 排 布 方式 差异 很 大 ， 但 是 作用 却 完 全 相同 。 前 述 
JavaScript 示例 也 能 改写 成 这 种 排 布 方式 〈 但 是 这 段 Python 代码 不 能 改写 成 JavaScript 那 
种 风格 ， 因 为 Lambda 表达 式 句法 上 有 限制 )。 


示例 18-10 和 示例 18-11 组 织 代码 的 方式 导致 代码 难以 阅读 ， 也 更 难 编写 :每 个 函数 做 一 部 
分 工作 ， 设 置 下 一 个 回调 ， 然 后 返回 ， 让 事件 循环 继续 运行 。 这 样 ， 所 有 本 地 的 上 下 文 都 
会 丢失 。 执 行 下 一 个 回调 时 (例如 stage2) ， 就 无 法 获取 request2 的 值 。 如 果 需 要 那个 值 ， 
那 就 必须 依靠 困 包 ， 或 者 把 它 存储 在 外 部 数据 结构 中 ， 以 便 在 处 理 过 程 的 不 同 阶段 使 用 。 


在 这 个 问题 上 ， 协 程 能 发 挥 很 大 的 作用 。 在 协 程 中 ， 如 果 要 连续 执行 3 个 异步 操作 ， 只 需 
使 用 yield3 次 ， 让 事件 循环 继续 和 运行。 准备 好 结果 后 ， 调 用 .send() 方法 ， 激 活 协 程 。 对 
事件 循环 来 说 ， 这 种 做 法 与 调用 回调 类 似 。 但 是 对 使 用 协 程式 异步 API 的 用 户 来 说 ， 情 况 
就 大 为 不 同 了 : 3 次 操作 都 在 同一 个 函数 定义 体 中 ， 像 是 顺序 代码 ， 能 在 处 理 过 程 中 使 用 
局 部 变量 保留 整个 任务 的 上 下 文 。 请 看 示例 18-12。 



















































































示例 18-12 使 用 协 程 和 yield from 结构 做 异步 编程 ， 无 需 使 用 回调 

@asyncio.coroutine 

def three_stages(request1): 
responsel = yield from api_call1(request1) 
# 第 一 步 
request2 = step1(response1) 
response2 = yield from api_call2(request2) 
# 第 二 步 
request3 = step2(response2) 
response3 = yield from api_call3(request3) 
# 第 三 步 
step3(response3) 


loop.create_task(three_stages(request1)) # 必须 显 式 调度 执行 


与 前 面 的 JavaScript 和 Python 示例 相 比 ， 示 例 18-12 容易 理解 多 了 : 操作 的 3 个 步骤 依次 
写 在 同一 个 国 数 中 。 这 样 ， 后 续 处 理 便于 使 用 前 一 步 的 结果 ， 而且 提供 了 上 下 文 ， 能 通过 
异常 来 报告 错误 。 

假设 在 示例 18-11 中 处 理 api_call2(request2, stage2) 调用 (stage1 函数 最 后 一 行 ) 时 抛 
出 了 VO 异常， 这 个 异常 无 法 在 stagel 国 数 中 捕获 ， 因 为 api_call2 是 异步 调用 ， 还 未 执 
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行 任何 IO 操作 就 会 立即 返回 。 在 基于 回调 的 API 中 ， 这 个 问题 的 解决 方法 是 为 每 个 异步 
调用 注册 两 个 回调 ， 一 个 用 于 处 理 操作 成 功 时 返回 的 结果 ， 另 一 个 用 于 处 理 错 误 。 一 旦 涉 
及 错误 处 理 ， 回 调 地 狱 的 危害 程度 就 会 迅速 增 大 。 


与 此 相 比 ， 在 示例 18-12 中 ， 那 个 三 步 操 作 的 所 有 蜡 步调 用 都 在 同一 个 国 数 中 (three_ 
stages)， 如 果 异 步调 用 api_call1, api_call2 和 api_call3 会 抛 出 异常 ， 那 么 可 以 把 相应 
的 yield from 表达 式 放 在 try/except 块 中 处 理 异常 。 


这 么 做 比 陷 和 回调 地 狱 好 多 了 ， 但 是 我 不 会 把 这 种 方式 称 为 协 程 天 堂 ， 毕 竟 我 们 还 要 付出 
代价 。 我 们 不 能 使 用 常规 的 函数 ， 必 须 使 用 协 程 ， 而 且 要 习惯 yield from 这 是 第 一 个 
障碍 。 只 要 函数 中 有 yield from， 函 数 就 会 变 成 协 程 ， 而 协 程 不 能 直接 调用 ， 即 不 能 像 示 
例 18-11 中 那样 调用 api_call1(request1, stage1) 来 启动 回调 链 。 我 们 必须 使 用 事件 循环 
显 式 排 定 协 程 的 执行 时 间 ， 或 者 在 其 他 排 定 了 执行 时 间 的 协 程 中 使 用 yield from 表达 式 把 
它 激 活 。 如 果 示 例 18-12 没有 最 后 一 行 (loop.create_task(three_stages(request1))), JB 
么 什么 也 不 会 发 生 。 


下 面 举 个 例子 来 实践 这 个 理论 。 


每 次 下 载 发 起 多 次 请 3 

假设 保存 每 面 国旗 时 ， 我 们 不 仅 想 在 文件 名 中 使 用 国家 代码 ， 还 想 加 上 国家 名 称 。 那 么 ， 
下 载 每 面 国旗 时 要 发 起 两 个 请 求 : 一 个 请 求 用 于 获取 国旗 ， 另 一 个 请 求 用 于 获取 图 像 所 在 
目录 里 的 metadata.json 文件 (记录 着 国家 名 称 )。 

在 同一 个 任务 中 发 起 多 个 请 求 ， 这 对 线程 版 脚本 来 说 很 容易 ， 只 需 接 连 发 起 两 次 请 求 ， 阻 
塞 线程 两 次 ， 把 国家 代码 和 国家 名 称 保存 在 局 部 变量 中 ， 在 保存 文件 时 使 用 。 如 果 想 在 异 
步 脚 本 中 使 用 回调 做 到 这 一 点 ， 你 会 闻 到 回调 地 狱 中 球 来 的 硫磺 味道 : 国家 代码 和 名 称 要 
放 在 闭 包 中 传 来 传 去 ， 或 者 保存 在 某 个 地 方 ， 在 保存 文件 时 使 用 ， 这 么 做 是 因为 各 个 回调 
在 不 同 的 局 部 上 下 文中 运行 。 协 程 和 yield from 结构 能 缓解 这 个 问题 。 解 决 方法 虽然 没有 
使 用 多 个 线程 那么 简单 ， 但 是 比 链 式 或 圣 套 回调 易于 管理 。 
示例 18-13 是 使 用 asyncio 包 下 载 国旗 脚本 的 第 3 版 ， 这 一 次 国旗 的 文件 名 中 有 国家 名 称 。 
flags2_asyncio.py 脚本 (示例 18-7 和 示例 18-8) 中 的 download_many 函数 和 downloader_ 
coro 协 程 没 变 ， 有 变化 的 是 下 面 的 内 容 。 


download_one 


现在 ， 这 个 协 程 使 用 yield from 把 职责 委托 给 get_flag 协 程 和 新 添 的 get_country 协 
程 。 


get_flag 


这 个 协 程 的 大 多 数 代码 移 到 新 添 的 http_get 协 程 中 了 ， 以 便 也 能 在 get_country 协 程 中 
使 用 。 


get_country 


这 个 协 程 获取 国家 代码 相应 的 metadata.json 文件 ， 从 文件 中 读 取 国家 名 称 。 
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http_get 
从 Web 获取 文件 的 通用 代码 。 


示例 18-13 flags3_asyncio.py: 再 定义 几 个 协 程 ， 把 职责 委托 出 去 ， 每 次 下 载 国旗 时 发 起 
两 次 请 求 
@asyncio.coroutine 
def http_get(url): 
res = yield from aiohttp.request('GET', url) 
if res.status == 200: 
ctype = res.headers.get('Content-type', '').lower() 
if 'json' in ctype or url.endswith('json'): 
data = yield from res.json() @ 
else: 
data = yield from res.read() @ 
return data 

















elif res.status == 404: 
raise web.HTTPNotFound() 
else: 
raise aiohttp.errors.HttpProcessingError( 
code=res.status, message=res.reason, 
headers=res.headers) 


@asyncio.coroutine 

def get_country(base_url, cc): 
url = '{}/{cc}/metadata.json'.format(base_url, cc=cc. Lower()) 
metadata = yield from http_get(url) © 
return metadata['country' ] 


@asyncio.coroutine 

def get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
return (yield from http_get(url)) @ 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): © 
image = yield from get_flag(base_url, cc) 
with (yield from semaphore): 
country = yield from get_country(base_url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = ‘not found' 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 
country = country.replace(' ', '_') 
filename = '{}-{}.gif'.format(country, cc) 
loop = asyncio.get_event_loop() 
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loop.run_in_executor(None, save_flag, image, filename) 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


O 如 果 内 容 类 型 中 包含 'json'， 或 者 url 以 .json 结尾， 那么 在 响应 上 调用 .json() 方 
法 ， 解 析 响 应 ， 返 回 一 个 Python 数据 结构 在 这 里 是 一 个 字典 。 

O 否则 ， 使 用 .read() 方法 读 取 原 始 字 节 。 

© metadata 变量 的 值 是 一 个 由 JSON 内 容 构建 的 Python 字典 。 

O 这 里 必须 在 外 层 加 上 括号 ， 如 果 直 接 写 return yield from, Python 解析 器 会 不 明 所 以 ， 
报告 句法 错误 。 

O 我 分 别 在 semaphore 控制 的 两 个 with 块 中 调用 get_flag 和 get_country， 因 为 我 想 尽 量 
缩减 下 载 时 间 。 

在 示例 18-13 P, yield from 句法 出 现 了 9 次。 现在 ， 你 应 该 已 经 熟知 如 何在 协 程 中 使 用 

这 个 结构 把 职责 委托 给 另 一 个 协 程 ， 而 不 阻塞 事件 循环 。 


问题 的 关键 是 ， 知 道 何 时 该 使 用 yield from， 何 时 不 该 使 用 。 基 本 原则 很 简单 ，yield 
from 只 能 用 于 协 程 和 asyncio.Future 实例 (包括 Task 实例 )。 可 是 有 些 API RE, E 
混 靖 协 程 和 普通 的 国 数 ， 例 如 下 一 节 实 现 某 个 服务 器 时 使 用 的 Streambriter 类 。 


示例 18-13 是 本 书 最 后 一 次 讨论 flags2 系列 示例 。 我 建议 你 自己 运行 那些 示例 ， 有 助 于 
对 HTTP 并 发 客户 端的 运作 方式 建立 直观 认识 。 你 可 以 使 用 -a、-e 和 -1 这 三 个 命令 行 
选项 控制 下 载 的 国旗 数量 ， 还 可 以 使 用 -m 选项 设置 并 发 下 载 数 。 此 外 ， 还 可 以 分 别 使 用 
LOCAL, REMOTE, DELAY 和 ERROR 服务 器 测试 ， 找 出 能 最 大 限度 地 利用 各 个 服务 器 的 吞吐 
量 的 并 发 下 载 数 。 如 果 想 去 掉 错误 或 延迟 ， 可 以 修改 vaurien_error_delay.sh 脚本 (https:// 
github.com/fluentpython/example-code/blob/master/17-futures/countries/vaurien_error_delay.sh ) 


中 的 设置 。 
客户 端 脚本 到 此 结束 ， 接 下 来 使 用 asyncio 包 编写 服务 器 。 


18.6 ”使 用 asyncio 包 编写 服务 器 


演示 TCP 服务 器 时 通常 使 用 回 显 服务 器 。 我 们 要 构建 更 好 玩 一 点 的 示例 服务 器 ， 用 于 查找 
Unicode 字符 ， 分 别 使 用 简单 的 TCP 协议 和 HTTP 协议 实现 。 这 两 个 服务 器 的 作用 是 ， 让 
客户 端 使 用 4.8 节 讨 论 过 的 unicodedata 模块 ， 通 过 规范 名 称 查找 Unicode 字符 。 图 18-2 
展示 了 在 一 个 Telnet 会 话 中 访问 TCP 版 字符 查找 服务 器 所 做 的 两 次 查询 ， 一 次 查询 国际 象 
棋 棋 子 字 符 ， 一 次 查询 名 称 中 包含 “sun” 的 字符 。 
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eoo 


lontra:charfinder luciano$ telnet localhost 2323 
Trying 127.0.0.1... 

Connected to localhost. 

Escape character is 'A]'. 


?> chess black 


?> AC 











U+265A + BLACK CHESS KING 
U+265B w BLACK CHESS QUEEN 
U+265C x BLACK CHESS ROOK 
U+265D + BLACK CHESS BISHOP 
U+265E a BLACK CHESS KNIGHT 
U+265F 2 BLACK CHESS PAWN 

6 matches for ‘chess black' 

?> sun 

U+2600 关 BLACK SUN WITH RAYS 
U+2609 。 SUN 

U+263C 从 WHITE SUN WITH RAYS 
U+26C5 SUN BEHIND CLOUD 
U+2E9C = CJK RADICAL SUN 
U+2F47 日 KANGXI RADICAL SUN 
U+3230 @ PARENTHESIZED IDEOGRAPH SUN 
U+3290 @ CIRCLED IDEOGRAPH SUN 
U+C21C 全 HANGUL SYLLABLE SUN 


U+1F31E @ SUN WITH FACE 
10 matches for "sun' 


Connection closed by foreign host. 
lontra:charfinder luciano$ 


4obash ooo Cy 








18-2: 在 一 个 Telnet 会 话 中 访问 tcp_charfinder.py 服务 器 一 一 查询 “chess black” 40 “sun” 


接 下 来 讨论 实现 方式 。 


18.6.1 使 用 asyncio 包 编写 TCP 服 务 器 

下 面 几 个 示例 的 大 多 数 逻 辑 在 charfinder.py 模块 中 ， 这 个 模块 没有 任何 并 发 。 你 可 以 在 命 
令 行 中 使 用 charfinder.py 脚本 查找 字符 ， 不 过 这 个 脚本 更 为 重要 的 作用 是 为 使 用 asyncio 
包 编 写 的 服务 器 提供 支持 。charfinder.py 脚本 的 代码 在 本 书 的 代码 仓库 中 (https://github. 
comyfluentpython/example-code ) 。 


charfinder 模块 读 取 Python 内 建 的 Unicode 数据 库 ， 为 每 个 字符 名 称 中 的 每 个 单词 建立 索 





























引 ， 然 后 倒 排 索引 ， 存 进 一 个 字典 。 例 如 ， 在 倒 排 索引 中 ，'SUN' 键 对 应 的 条 目 是 一 个 集 
A (set), 里面 是 名 称 中 包含 'SUN' 这 个 词 的 10 个 Unicode 字符 。” 倒 排 索引 保存 在 本 地 
一 个 名 为 charfinder_index.pickle 的 文件 中 。 如 果 查 询 多 个 单词 ，charfinder 会 计算 从 索引 


中 所 得 集合 的 交集 。 








下 面 我 们 把 注意 力 集中 在 响应 图 18-2 中 那 两 个 查询 的 tcp_charfinder.py 脚本 上 。 我 要 对 这 个 


脚本 中 的 代码 做 大 量 说 明 ， 因 























此 把 它 分 为 两 部 分 ， 分 别 在 示例 18-14 和 示例 18-15 中 列 出 。 


注 9: 在 Python 3.5 中 ， 新 增 了 4 个 名 称 中 包含 'SUN' 的 Unicode 字符 : U+1F323 (WHITE SUN), U+1F324 


(WHITE SUN WITH SMALL CLOUD), U+1F325 (WHITE SUN BEHIND CLOUD) 和 U+1F326 (WHITE 


SUN BEHIND CLOUD WITH RAIN). 一 一 编者 广 
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示例 18-14 beeen py: 使 用 asyncio.start_server 


这 个 模块 余下 的 代码 在 示例 18-15 中 


import sys 
import asyncio 





from charfinder import UnicodeNameIndex @ 


CRLF 


= b'\r\n' 
PROMPT = b'?> 


index = UnicodeNameIndex() @ 


@asyncio.coroutine 

def handle_queries(reader, writer): © 
while True: @ 

writer.write(PROMPT) # 不 能 使 用 














yield from! 


函数 实现 的 简易 TCP ARS # 


© 


yield from writer.drain() # 必须 使 用 yield from! © 


data = yield from reader.readline() @ 
try: 

query = data.decode().strip() 
except UnicodeDecodeError: © 

query = '\x00' 


client = writer.get_extra_info('peername') © 


print('Received from {}: {!r}'.format(client, query)) 四 


if query: 
if ord(query[:1]) < 32: @ 
break 


lines = list(index.find_description_strs(query)) 四 


if lines: 


writer .writelines(line.encode() + CRLF for line in lines) ® 
writer.write(index.status(query, len(lines)).encode() + CRLF) @ 


yield from writer.drain() 四 
print('Sent {} results' 


print('Close the client socket') @ 
writer.close() 四 


@ UnicodeNameIndex 类 用 于 构建 名 称 索引 ， 

















提供 查询 方法 。 


.format(Len(Lines))) 四 


@ 实例 化 UnicodeNameIndex 类 时 ， 它 会 使 用 charfinder_index.pickle 文件 (如果 有 的 话 )， 











或 者 构建 这 个 
O 这 个 协 程 要 传 给 
对 象 和 asyncio.StreamWriter 对 象 。 
O 这 个 循环 处 理会 话 ， 直 到 从 客户 端 收 到 控制 字 











符 后 退出 。 














注 10: Leonardo Rochael 指出 ， 可 以 在 示例 18-15 中 的 main 函数 里 使 
一 个 线程 中 构建 Unicode 名 称 索 引 ， 这 
不 过 这 个 应 用 的 唯一 用 途 是 查询 索引 ， 
练习 ， 有 兴趣 的 话 你 可 以 去 做 。 


















































文件 ， 因 此 第 一 次 运行 时 可 能 要 等 几 秒 钟 服务 如 


器 才能 启动 。 


asyncio.start_server 国 数 ， 接 收 的 两 个 参数 是 asyncio.StreamReader 


用 Loop .run_with_executor() 方法 ， 在 另 
文 样 索引 构建 好 之 后 ， 服 务 器 能 立即 开始 接收 请 求 。 他 说 得 对 ， 
因此 那样 做 没有 多 大 好 处 。 





不 过 ，Leo 建议 的 做 法 是 个 不 错 的 





© StreamWriter.write 方法 不 是 协 程 ， 只 是 普通 的 函数 ， 这 一 行 代码 发 送 ?> 提示 符 。 

Q StreamWriter.drain 方法 刷新 writer 缓冲 ， 因 为 它 是 协 程 ， 所 以 必须 使 用 yield from 
调用 。 

@ StreamReader .readline 方法 是 协 程 ， 返 回 一 个 bytes 对 象 。 

© Telnet 客户 端 发 送 控制 字符 时 ， 可 能 会 抛 出 UnicodeDecodeError 异常 ， 遇 到 这 种 情况 
时 ， 为 了 简单 起 见 ， 假 装 发 送 的 是 空 字符 。 

O 返回 与 套 接 字 连接 的 远程 地 址 。 

O 在 服务 器 的 控制 台中 记录 查询 。 

O 如 果 收 到 控制 字符 或 者 空 字符 ， 退 出 循环 。 

O 返回 一 个 生成 器 ， 产 出 包含 Unicode 码 位 、 真 正 的 字符 和 字符 名 称 的 字符 串 (例如 ， 
U+0039\t9\tDIGIT NINE) ; 为 了 简单 起 见 ， 我 从 中 构建 了 一 个 列表 。 

© 使 用 默认 的 UTF-8 编码 把 Lines 转换 成 bytes 对 象 ， 并 在 每 一 行 末 尾 添加 回 车 符 和 换行 
符 ; 注意 ， 参 数 是 一 个 生成 器 表达 式 。 

O 输出 状态 ， 例 如 627 matches for 'digit', |! 

O 刷新 输出 缓冲 。 

O 在 服务 器 的 控制 台中 记录 响应 。 

DO 在 服务 器 的 控制 台中 记录 会 话 结束 。 

B 关闭 StreamWriter 流 。 


handle_queries 协 程 的 名 称 是 复数 ， 因 为 它 启动 交互 式 会 话 后 能 处 理 各 个 客户 端 发 来 的 多 
次 请 求 。 

注意 ， 示 例 18-14 中 所 有 的 IO 操作 都 使 用 bytes 格式 。 因 此 ， 我 们 要 解码 从 网 络 中 收 到 
的 字符 串 ， 还 要 编码 发 出 的 字符 串 。Python 3 默认 使 用 的 编码 是 UTF-8， 这 里 就 隐 式 使 用 
了 这 个 编码 。 

注意 一 点 ， 有 些 IO 方法 是 协 程 ， 必 须 由 yield from 驱动 ， 而 另 一 些 则 是 普通 的 函 
数 。 例 如 ，StreamWriter.write 是 普通 的 函数 ， 我 们 假定 它 大 多 数 时 候 都 不 会 阻塞 ， 因 
为 它 把 数据 写 入 缓冲 ， 而 刷新 缓冲 并 真正 执行 IO 操作 的 StreamWriter.drain 是 协 程 ， 
StreamReader .readline 也 是 协 程 。 写 作 本 书 时 ，asyncio 包 的 API 文档 有 重大 的 改进 ， 明 
确 标识 出 了 哪些 方法 是 协 程 。 


示例 18-15 接续 示例 18-14， 列 出 这 个 模块 的 main 函数 。 


示例 18-15 tcp_charfinder.py (接续 示例 18-14) : main 函数 创建 并 销毁 事件 循环 和 套 接 
FARA at 


def main(address='127.0.0.1', port=2323): @ 
port = int(port) 
loop = asyncio.get_event_loop() 
server_coro = asyncio.start_server(handle_queries, address, port, 
loop=loop) @ 
server = loop.run_until_complete(server_coro) © 






















































































HE 11: 在 Python 3.5 中 ,是 755 matches for 'digit', 一 一 编者 注 
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host = server.sockets[0].getsockname() @ 
print('Serving on {}. Hit CTRL-C to stop.'.format(host)) @ 
try: 
loop.run_forever() @ 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 


print('Server shutting down. ') 

server.close() @ 
loop.run_until_complete(server.wait_closed()) ©@ 
loop.close() © 


if _name == '_ main_': 
main(*sys.argv[1:]) @ 


© 调用 main 国 数 时 可 以 不 传人 参数 。 

@ asyncio.start_server 协 程 运 行 结束 后 ， 返 回 的 协 程 对 象 返 回 一 个 asyncio. Server 实 
例 ， 即 一 个 TCP 套 接 字 服 务 器 。 

© 驱动 server_coro 协 程 ， 启 动 服 务 器 (server), 

O 获取 这 个 服务 器 的 第 一 个 套 接 字 的 地 址 和 端口 ， 然 后 …… 

©@…… 在 服务 器 的 控制 台中 显示 出 来 。 这 是 这 个 脚本 在 服务 器 的 控制 台中 显示 的 第 一 个 输出 。 

O 运行 事件 循环 ，main 函数 在 这 里 阻塞 ， 直 到 在 服务 器 的 控制 台中 按 CTRL-C 键 才 会 关闭 。 

O 关闭 服务 器 。 

O server .wait_closed() 方法 返回 一 个 future; 调用 loop.run_until_complete 方法 ， 运 行 
future。 

O 终止 事件 循环 。 

O 这 是 处 理 可 选 的 命令 行 参 数 的 简便 方式 : 展开 sys.argv[1:]， 传 给 main 函数 ， 未 指定 
的 参数 使 用 相应 的 默认 值 。 


注意 ，run_unttl_complete 方法 的 参数 是 一 个 协 程 (start_server 方法 返回 的 结果 ) 或 一 
个 Future 对 象 (server.wait_closed 方法 返回 的 结果 )。 如 果 传 给 run_until_complete 方 
法 的 参数 是 协 程 ， 会 把 协 程 包装 在 Task 对 象 中 。 


仔细 查看 tcp_charfinder.py 脚本 在 服务 器 控制 台中 生成 的 输出 (如 示例 18-16)， 更 易于 理 
解 脚本 中 控制 权 的 流动 。 


示例 18-16 tcp_charfinder.py: 这 是 图 18-2 所 示 会 话 在 服务 器 端的 输出 
$ python3 tcp_charfinder.py 
Serving on ('127.0.0.1', 2323). Hit CTRL-C to stop. @ 
Received from ('127.0.0.1', 62910): 'chess black' @ 
Sent 6 results 
Received from ('127.0.0.1', 62910): 'sun' © 
Sent 10 results 
Received from ('127.0.0.1', 62910): '\x00' @ 
Close the client socket © 


O 这 是 main 函数 的 输出 。 
@ handle_queries 协 程 中 那个 while 循环 第 一 次 运 代 的 输出 。 



































© 那个 while 循环 第 二 次 迭代 的 输出 。” 

O 用 户 按 下 CTRL-C 键 ， 服务器 收 到 控制 字符 ， 关 闭会 话 。 

O 客户 端 套 接 字 关闭 了 ， 但 是 服务 器 仍 在 运行 ， 准 备 为 其 他 客户 端 提供 服务 。 

WERE, main 函数 几乎 会 立即 显示 Serving on... 消息 ， 然 后 在 调用 loop.run_forever() 方 
法 时 阻塞 。 在 那 一 点 ， 控 制 权 流动 到 事件 循环 中 ， 而 且 一 直 待 在 那里 ， 不 过 偶尔 会 回 到 
handle_queries 协 程 ， 这 个 协 程 需要 等 待 网 络 发 送 或 接收 数据 时 ， 控 制 权 又 交还 事件 循 
环 。 在 事件 循环 运行 期 间 ， 只 要 有 新 客户 端 连接 服务 器 就 会 启动 一 个 handle_queries 协 程 
实例 。 因 此 ， 这 个 简单 的 服务 器 可 以 并 发 处 理 多 个 客户 端 。 出 现 KeyboardInterrupt 异常， 
或 者 操作 系统 把 进程 杀 死 ， 服 务 器 会 关闭 。 


tcp_charfinder.py 脚本 利用 asyncio 包 提 供 的 高 层 流 API (https://docs.python.org/3/library/ 
asyncio-stream.html) ， 有 现成 的 服务 器 可 用 ， 所 以 我 们 只 需 实现 一 个 处 理 程序 (普通 的 回 
调 或 协 程 )。 此 外 ，asyncio 包 受 Twisted 框架 中 抽象 的 传送 和 协议 启发 ， 还 提供 了 低层 
传送 和 协议 API。 详 情 请 参见 asyncio 包 的 文档 (https://docs.python.org/3/library/asyncio- 
protocol.html) ， 里 面 有 一 个 使 用 低层 API 实现 的 TCP 回 显 服务 器 。 


下 一 节 实 现 HTTP 版 字符 查找 服务 器 。 


18.6.2 ”使 用 aiohttp 包 编写 Web 服 务 器 


asyncio 版 国旗 下 载 示 例 使 用 的 aiohttp 库 也 支持 服务 器 端 HITP， 我 就 使 用 这 个 库 实 现 了 
http_charfinder.py 脚本 。 图 18-3 是 这 个 简易 服务 器 的 Web 界面 ， 显 示 搜 索 “cat face” K 
情 符号 得 到 的 结果 。 
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aii Charfinder x G — T _ — — x 








(€) @ locathost:8888/2query=cat-+ face e | (Q Search \e Btare | 三 


Examples: bismillah, black, Braille, cat, chess, circled, digit, dot, Ethiopic, face, hexagram, Malayalam, mark, operator, Roman, symbol 





[cat face {find | 10 matches for ‘cat face’ 


U+1F431 [ij CAT FACE 

U+1F638 & GRINNING CAT FACE WITH SMILING EYES 
U+1F639 & CAT FACE WITH TEARS OF JOY 

U+1F63A & SMILING CAT FACE WITH OPEN MOUTH 
U+1F63B & SMILING CAT FACE WITH HEART-SHAPED EYES 
U+1F63C & CAT FACE WITH WRY SMILE 

U+1F63D &§ KISSING CAT FACE WITH CLOSED EYES 
U+1F63E (> POUTING CAT FACE 

U+1F63F 是 CRYING CAT FACE 

U+1F640 图 WEARY CAT FACE 














B 18-3: 浏览 器 窗口 中 显示 在 http_charfinder.py 服务 器 中 搜索 “cat face” 得 到 的 结果 





注 12: 在 Python 3.5 中 是 Sent 14 resuLtts。 参 见 本 小 节 开 头 的 编者 注 。 一 一 编者 注 
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有 些 浏览 器 显示 Unicode 字符 的 效果 比 其 他 浏览 器 好 。 图 18-3 中 的 截图 在 
OS X 版 Firefox 浏览 器 中 截取 ， 我 在 Safari 中 也 得 到 了 相同 的 结果 。 但 是 ， 
运行 在 同一 台 设 备 中 的 最 新 版 Chrome 和 Opera 却 不 能 显示 猫 脸 等 表情 符号 。 
不 过 其 他 搜索 结果 (例如 “chess”) 正常 ， 因 此 这 可 能 是 OS X hk Chrome 和 
Opera 的 字体 问题 。 





























我 们 先 分 析 http_charfinder.py 脚本 中 最 重要 的 后 半 部 分 : 启动 和 关闭 事件 循环 与 HTTP 服 
务 器 。 参 见 示例 18-17。 


示例 18-17 http_charfinder.py: main 和 init 函数 
@asyncio.coroutine 
def init(loop, address, port): @ 
app = web.Application(loop=loop) @ 
app.router.add_route('GET', '/', home) © 
handler = app.make_handler() @ 
server = yield from loop.create_server(handler, 
address, port) @ 
return server.sockets[0].getsockname() @ 


def main(address="127.0.0.1", port=8888): 
port = int(port) 
loop = asyncio.get_event_loop() 
host = loop.run_until_complete(init(loop, address, port)) @ 
print('Serving on {}. Hit CTRL-C to stop.'.format(host)) 
try: 
loop.run_forever() © 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 
print('Server shutting down. ') 
loop.close() © 


if _ name == '_ main_': 


main(*sys.argv[1: ]) 


O init 协 程 产 出 一 个 服务 器 ， 交 给 事件 循环 驱动 。 

@ aiohttp.web.Application 类 表示 Web 应 用 ……… 

© …… 通 过 路 由 把 URL 模式 映射 到 处 理 函数 上 ， 这里， 把 GET / 路 由 映射 到 home 函数 上 
(参见 示例 18-18)。 

© app.make_handler 方法 返回 一 个 aiohttp.web.RequestHandler 实例 ， 根 据 app 对 象 设置 
的 路 由 处 理 HTTP 请 求 。 

O create_server 方法 创建 服务 器 ， 以 handler 为 协议 处 理 程 序 ， 并 把 服务 器 绑 定 在 指定 
的 地 址 (address) 和 端口 (port) 上 。 

O 返回 第 一 个 服务 器 套 接 字 的 地 址 和 端口 。 

O 运行 init 函数 ， 启 动 服务 器 ， 获 取 服务 器 的 地 址 和 端口 。 

O 运行 事件 循环 ， 控 制 权 在 事件 循环 手 上 时 ，main 函数 会 在 这 里 阻塞 。 

O 关闭 事件 循环 。 























我 们 已 经 熟悉 了 asyncio 包 的 API， 现 在 可 以 对 比 一 下 示例 18-17 与 前 面 的 TCP 示例 ( 见 
示例 18-15) ， 看 它们 创建 服务 器 的 方式 有 何不 同 。 
在 前 面 的 TCP 示例 中 ， 服 务 器 通过 main 国 数 中 的 下 面 两 行 代码 创建 并 排 定 运行 时 间 : 
server_coro = asyncio.start_server(handle_queries, address, port, 
Loop=Loop) 
server = loop.run_until_complete(server_coro) 


在 这 个 HTTP 示例 中 ，init 函数 通过 下 述 方式 创建 服务 器 : 


server = yield from loop.create_server(handler, 
address, port) 


但 是 init 是 协 程 ， 驱 动 它 运行 的 是 main 函数 中 的 这 一 行 : 
host = loop.run_until_complete(init(loop, address, port)) 


asyncio.start_server 图 数 和 Loop.create_server 方法 都 是 协 程 ， 返 回 的 结果 都 是 
asyncio.Server 对 象 。 为 了 启动 服务 器 并 返回 服务 器 的 引用 ， 这 两 个 协 程 都 要 由 他 人 驱动 ， 
完成 运行 。 在 TCP 示例 中 ， 做 法 是 调用 loop.run_until_complete(server_coro)， 其 中 
server_coro 是 asyncio.start_server 国 数 返 回 的 结果 。 在 HTTP 示例 中 ，create_server 
方法 在 init 协 程 中 的 一 个 yield from 表 达 式 里 调用 ， 而 init 协 程 则 由 main 函数 中 的 
loop.run_until_complete(init(...)) 调用 驱动 。 


我 提 到 这 一 点 是 为 了 强调 之 前 讨论 过 的 一 个 基本 事实 : 只 有 驱动 协 程 ， 协 程 才能 做 事 ， 而 
驱动 asyncio.coroutine 装饰 的 协 程 有 两 种 方法 ， 要 么 使 用 yieLd from， 要 么 传 给 asyncio 
包 中 某 个 参数 为 协 程 或 future 的 国 数 ， 例 如 run_until_complete, 


示例 18-18 列 出 home 函数 。 根 据 这 个 HTTP 服务 器 的 配置 ，home 函数 用 于 处 理 / ( 根 ) URL, 










































































示例 18-18 ”http_charfinder.py: home 函数 
def home(request): @ 

query = request.GET.get('query', '').strip() @ 

print('Query: {!r}'.format(query)) © 

if query: @ 
descriptions = list(index.find_descriptions(query) ) 
res = '\n'.join(ROW_TPL. format(**vars(descr)) 

for descr in descriptions) 

msg = index.status(query, len(descriptions) ) 


else: 
descriptions = [] 
res = '' 
msg = ‘Enter words describing characters. ' 


html = template. format(query=query, result=res, © 
message=msg) 

print('Sending {} results'.format(len(descriptions))) @ 

return web.Response(content_type=CONTENT_TYPE, text=html) @ 


@ 一 个 路 由 处 理 函 数 ， 参 数 是 一 个 aiohttp.web.Request 实例 。 
O 获取 查询 字符 串 ， 去 掉 首 尾 的 空白 。 





使 用 asyncio 包 处 理 并 发 | 473 





© 在 服务 器 的 控制 台中 记录 查询 。 

O 如 果 有 查询 字符 串 ， 从 索引 (index) 中 找到 结果 ， 使 用 HTML 表格 中 的 行 泻 染 结果 ， 
把 结果 赋值 给 res 变量 ， 再 把 状态 消息 赋值 给 msg 变量 。 

O 泻 染 HTML 页 面 。 

O 在 服务 器 的 控制 台中 记录 响应 。 

@ 构建 Response 对 象 ， 将 其 返回 。 


注意 ，home 不 是 协 程 ， 既 然 定 义 体 中 没有 yietd from 表 达 式 ， 也 没 必 要 是 协 程 。 在 
aiohttp 包 的 文档 中 ，add_route 方法 的 条 目 (http://aiohttp.readthedocs.org/en/v0.14.4/web_ 
reference.html#aiohttp.web.UrlDispatcher.add_route) 下 面 说 道 ,“ 如 果 处 理 程序 是 普通 的 函 
数 ， 在 内 部 会 将 其 转换 成 协 程 ”。 


示例 18-18 中 的 home 函数 虽然 简单 ， 却 有 一 个 缺点 。hone 是 普通 的 函数 ， 而 不 是 协 程 ， 这 
一 事实 预示 着 一 个 更 大 的 问题 ， 我 们 需要 重新 思考 如 何 实现 Web 应 用 ， 以 获得 高 并 发 。 下 
i 来 分 析 这 个 问题 。 


18.6.3 ”更 好 地 支持 并 发 的 智能 客户 端 


示例 18-18 中 的 home 函数 很 像 是 Django 或 Flask 中 的 视图 国 数 ， 实 现 方式 完全 设 有 考虑 异 
步 : 获取 请 求 ， 从 数据 库 中 读 取 数据 ， 然 后 构建 响应 ， 泻 染 完整 的 HTML 页 面 。 在 这 个 示 
例 中 ， 存 储 在 内 存 中 的 UnicodeNameIndex 对 象 是 “数据 库 ”"。 但 是 ， 对 真正 的 数据 库 来 说 ， 
应 该 异步 访问 ， 否 则 在 等 待 数据 库 查询 结果 的 过 程 中 ， 事 件 循 环 会 阻塞 。 例 如 ，aiopg 包 
(https://aiopg.readthedocs.org/en/stable/) 提供 了 一 个 异步 PostgreSQL 驱动 ， 与 asyncio 包 
兼容 ， 这 个 包 支 持 使 用 yield from 发 送 查 询 和 获取 结果 ， 因 此 视图 函数 的 表现 与 真正 的 协 
程 一 样 。 

除了 防止 阻塞 调用 之 外 ， 高 并 发 的 系统 还 必须 把 复杂 的 工作 分 成 多 步 ， 以 保持 敏捷 。http_ 
charfinder.py 服务 器 表明 了 这 一 点 如 果 搜 索 “cjk”， 得 到 的 结果 是 75 821 个 中 文 、 日 文 
和 韩文 象形 文字 。” 此 时 ，home 函数 会 返回 一 个 5.3MB 的 HTML 文档 , 显示 一 个 有 75 821 
行 的 表格 。 

我 在 自己 的 设备 中 使 用 命令 行 HTTP 客户 端 curl 访问 架设 在 本 地 的 http_charfinder.py 服务 
器 ， 查 询 “cjk”，2 秒 钟 后 获得 响应 。 浏 览 器 要 布局 包含 这 么 大 一 个 表格 的 页 面 ， 用 的 时 
闻 会 更 长 。 当 然 ， 大 多 数 查 询 返 回 的 响应 要 小 得 多 : 查询 “braille” 返 回 256 行 结果 ， 页 
看 大 小 为 19KB， 在 我 的 设备 中 用 时 0.017 秒 。 可 是 ， 如 果 服 务 器 要 用 2 秒 钟 处 理 “cjk” 
查询 ， 那 么 其 他 所 有 客户 端 都 至 少 要 等 2 秒 一 一 这 是 不 可 接受 的 。 

避免 响应 时 间 太 长 的 方法 是 实现 分 页 : 首次 至 多 返回 (比如 说 ) 200 行 ， 用 户 点 击 链 接 或 深 
动 页 面 时 再 获取 更 多 结果 。 如 果 查 看 本 书 代码 仓库 (https://github.com/fluentpython/example- 
code) 中 的 charfinder.py 模块 , 你 会 发 现 UnicodeNameIndex. find_descriptions 方法 有 两 个 可 
选 的 参数 一 一 start 和 stop， 这 是 偏 移 值 ， 用 于 支持 分 页 。 因 此 ， 我 们 可 以 返回 前 200 个 结 
果 ， 当 用 户 想 查看 更 多 结果 时 ， 再 使 用 AJAX 或 WebSockets 发 送 下 一 批 结果 。 


















































































































































































































































注 13: 这 正 是 CJK 表示 的 意思 : 不 断 增加 的 中 文 、 日 文 和 韩文 字符 。 以 后 的 Python 版 本 支持 的 CJK 象 
文字 数量 可 能 会 比 Python 3.4 多 。 
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实现 分 批发 送 结果 所 需 的 大 多 数 代码 都 在 浏览 器 这 一 端 ， 因 此 Google 和 所 有 大 型 互联 网 
公司 都 大 量 依赖 客户 端 代码 构建 服务 : 智能 的 异步 客户 端 能 更 好 地 使 用 服务 器 资源 。 


虽然 智能 的 客户 端 甚至 对 老式 Django 应 用 也 有 帮助 ， 但 是 要 想 真 正 为 这 种 客户 端 服务 ， 
我 们 需要 全 方位 支持 异步 编程 的 框架 ， 从 处 理 HTTP 请 求 和 响应 到 访问 数据 库 ， 全 都 支持 
异步 。 如 果 想 实现 实时 服务 ， 例 如 游戏 和 以 WebSockets 支持 的 媒体 流 ， 那 就 尤其 应 该 这 
么 做 。” 


这 里 留 一 个 练习 给 读者 : 改进 http_charfinder.py 脚本 ,添加 下 载 进度 条 。 此 外 还 有 一 个 附 
加 题 : 实现 Twitter 那样 的 “无 限 滚动 "。 做 完 这 个 练习 后 ， 我 们 对 如 何 使 用 asyncio 包 做 
异步 编程 的 讨论 就 结束 了 。 


18.7 本章 小 结 


本 章 介 绍 了 在 Python 中 做 并 发 编程 的 一 种 全 新 方式 ， 这 种 方式 使 用 yield from, WIE, 
future 和 asyncio 事件 循环 。 首 先 ， 我 们 分 析 了 两 个 简单 的 示例 一 一 两 个 旋转 指针 脚本 ， 仔 
细 对 比 了 使 用 threading 模块 和 asyncio 包 处 理 并 发 的 异同 。 


然后 ， 本 章 讨论 了 asyncio.Future 类 的 细节 ， 重 点 讲述 它 对 yield from 的 支持 ， 以 及 与 协 
程 和 asyncio.Task 类 的 关系 。 接 下 来 分 析 了 asyncio 版 国旗 下 载 脚本 。 


然后 ， 本 章 分 析 了 Ryan Dahl 对 IO 延迟 所 做 的 统计 数据 ， 还 说 明了 阻塞 调用 的 影响 。 尽 
管 有 些 国 数 必然 会 阻塞 ， 但 是 为 了 让 程序 持续 运行 ， 有 两 种 解决 方案 可 用 : 使 用 多 个 线 
程 ， 或 者 异步 调用 一 一 后 者 以 回调 或 协 程 的 形式 实现 。 

其 实 ， 蜡 步 库 依赖 于 低层 线程 (直至 内 核 级 线程 ) ， 但 是 这 些 库 的 用 户 无 需 创建 线程 ， 也 
无 需 知道 用 到 了 基础 设施 中 的 低层 线程 。 在 应 用 中 ， 我 们 只 需 确 保 没 有 阻塞 的 代码 ， 事 件 
循环 会 在 背后 处 理 并 发 。 异 步 系统 能 避免 用 户 级 线程 的 开销 ， 这 是 它 能 比 多 线程 系统 管理 
更 多 并 发 连接 的 主要 原因 。 

之 后 ， 我 们 又 回 到 下 载 国旗 的 脚本 ,添加 进度 条 并 处 理 错 误 。 这 需要 大 幅度 重 构 ， 特 别 是 
要 把 asyncio.wait 图 数 换 成 asyncio.as_completed 畏 数 ， 因 此 不 得 不 把 download_many pki 
数 的 大 多 数 功 能 移 到 新 添 的 downloader_coro 协 程 中 ， 这 样 我 们 才能 使 用 yield from 从 
asyncio.as_completed 国 数 生 成 的 多 个 future 中 逐个 获得 结果 。 

然后 ， 本 章 说 明了 如 何 使 用 Loop.run_in_executor 方法 把 阻塞 的 作业 (例如 保存 文件 ) 委 
托 给 线程 池 做 。 

接着 ， 本 章 讨论 了 如 何 使 用 协 程 解决 回调 的 主要 问题 : 执行 分 成 多 步 的 异步 任务 时 丢失 上 
下 文 ， 以 及 缺少 处 理 错误 所 需 的 上 下 文 。 

然后 又 举 了 一 个 例子 ， 在 下 载 国旗 图 像 的 同时 获取 国家 名 称 ， 以 此 说 明 如 何 结合 协 程 和 
yield from 避免 所 谓 的 回调 地 狱 。 如 果 忽 略 yield from 关键 字 ， 使 用 yield from 结构 实 
现 异 步调 用 的 多 步 过 程 看 起 来 类 似 于 顺序 执行 的 代码 。 









































































































































注 14: 在 “杂谈 ”中 我 会 进一步 说 明 这 个 趋势 。 
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本 章 最 后 两 个 示例 是 使 用 asyncio 包 实 现 的 TCP FU HTTP 服务器 ， 用 于 按 名 称 搜索 
Unicode 字符 。 在 分 析 HTTP 服务 器 的 最 后 ， 我 们 讨论 了 客户 端 JavaScript 对 服务 器 端 提供 
高 并 发 支持 的 重要 性 。 使 用 JavaScript， 客 户 端 可 以 按 需 发 起 小 型 请 求 ， 而 不 用 下 载 较 大 
WJ HTML 页 面 。 


18.8 延伸 阅读 


Python 核心 开发 者 Nick Coghlan 在 2013 年 1 月 对 “PEP 3156—Asynchronous IO Support 
Rebooted: the ‘asyncio’ Module” (https://www.python.org/dev/peps/pep-3156/) 草案 评论 如 下 : 


在 这 个 PEP HA KRY DES BSBA FAHD future 返回 结果 的 两 个 API: 

(1)f.add_done_callback(...) 

(2) 协 程 中 的 yield from f (future 运行 结束 后 恢复 协 程 ，future 要 么 返回 结果 ， 要 人 么 

抛 出 合适 的 异常 ) 

此 刻 ， 这 两 个 API 深 埋 在 众多 的 API 中 ， 而 它们 是 理解 核心 事件 循环 层 之 上 各 种 事 

物 交 互 方式 的 关键 。 
PEP 3156 的 作者 Guido van Rossum 没有 采纳 Coghlan 的 建议 。 实 现 PEP 3156 的 初期 ， 
asyncio 包 的 文档 虽然 十 分 详细 ， 但 对 用 户 并 不 友好 。asyncio 包 的 文档 有 9 个 .rst 文 从 
128KB， 将 近 71 页 。 在 标准 库 文档 中 ， 只 有 “了 Builtrin Types” 一 章 (https://docs.python. 
org/3/ibrary/stdtypes.html) 有 这 么 长 ， 而 那 一 章 内 容 众多 ， 涵 盖 了 数字 类 型 、 序 列 类 型 、 
生成 器 、 映 射 、 集 合 、bool、 上 下 文 管理 器 ， 等 等 。 


asyncio 包 的 文档 大 部 分 是 在 讲 概念 和 API， 其 中 夹杂 着 有 用 的 示意 图 和 示例 ， 不 过 特别 
实用 的 一 节 是 “18.5.11. Develop with asyncio” (https://docs.python.org/3/library/asyncio-dev. 
html),“ 其 中 说 明了 极为 重要 的 使 用 模式 。asyncio 包 的 文档 需要 用 更 多 的 内 容 来 说 明 如 何 
使 用 asyncio, 


asyncio 包 很 新 ， 已 出 版 的 书 中 少 有 涉及 。 我 发 现 只 有 Jan Palach 写 的 Parallel Programming 
with Python (Packt 出 版 社 ，2014 年 ) 一 书 中 有 一 章 讲 到 了 asyncto， 可 惜 那 一 章 很 短 。 


不 过 ， 有 很 多 关于 asyncio 的 精彩 演讲 。 我 觉得 最 棒 的 是 Brett Slatkin 在 蒙特 利 尔 PyCon 
2014 大 会 上 发 表 的 演讲 ， 题 为 “Fan-In and Fan-Out: The Crucial Components of Concurrency” 
(https://speakerdeck.com/pycon2014/fan-in-and-fan-out-the-crucial-components-of-concurrency-by- 
brett-slatkin) ， 副 标题 是 “Why do we need Tulip? (a.k.a., PEP 3156 一 asyncio)”( 视 频 : https:// 
www.youtube.com/watch?v=CWmq-jtkemY)。 在 30 分 钟 内 ，Slatkin 实现 了 一 个 简单 的 Web 
IRAN BA, GRU T asyncio 包 的 正确 用 法 。 身 为 观众 的 Guido van Rossum 提 到 ， 为 了 引荐 
asyncio 包 ， 他 也 写 了 一 个 Web MEH, Guido 写 的 代码 不 依赖 atohttp 包 ， 只 用 到 了 标准 
Æ. Slatkin 还 写 了 一 篇 见解 深刻 的 文章 ， 题 为 “Python’s asyncio Is for Composition, Not Raw 
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TE 15: 摘自 2013 4 1 H 20 A RAGE python-ideas 邮件 列表 中 的 一 个 消息 (https://mail.python.org/pipermail/ 
python-ideas/2013-January/018791.html) ， 在 这 个 消息 中 ，Coghlan 对 PEP 3156 做 出 了 上 述评 论 。 
注 16: 目前 是 : 18.5.9. Develop with asyncio。 一 一 编者 注 
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Performance” (http://www.onebigfluke.com/2015/02/asyncio-is-for-composition.html) 。 


Guido van Rossum 自己 的 几 个 演讲 也 是 必 看 的 ， 包 括 在 PyCon US 2013 上 所 做 的 主题 演讲 
(http:/Wpyvideo.org/video/1667/keynote-1) ， 以 及 在 LinkedIn 公司 (https://www.youtube.com/ 
watch?v=aurOB4qYuFM) 和 Twitter 大 学 (https:/Avww.youtube.com/watch?v=1coLC-MUC3c) 
所 做 的 演讲 。 此 外 ， 还 推荐 Saúl Ibarra Corretgé 的 演讲 一 一 “A Deep Dive into PEP-3156 and 
the New asyncio Module” [ (幻灯 片 (http://www.slideshare.net/saghul/asyncio)， 视 频 (https:// 
www.youtube.com/watch?v=MS1L2RGKYyY) ]。 





在 PyCon US 2013 大 会 上 ，Dino Viehland 做 了 一 场 演讲 ， 题 为 “Using futures for async 
GUI programming in Python 3.3” (http://pyvideo.org/video/1762/using-futures-for-async-gui- 
programming-in-python) ， 说 明 如 何 把 asyncio 包 集 成 到 Tkinter 事件 循环 中 。Viehland 展示 
了 在 另 一 个 事件 循环 之 上 实现 asyncio.AbstractEventLoop 接口 的 重要 部 分 是 多 么 容易 。 他 
的 代码 使 用 Tulip 编写 ， 这 是 asyncio 包 添 加 到 标准 库 中 之 前 的 名 称 。 我 修改 了 他 的 代码 ， 
以 便 支 持 Python 3.4 中 的 asyncio 包 。 我 重 构 后 的 新 版 在 GitHub 中 (https://github.com/ 


fluentpython/asyncio-tkinter) 。 


Victor Stinner [asyncio 包 的 核心 贡献 者 ，asyncio 包 的 移植 版 Trollius (http://trollius. 
readthedocs.org) 的 作者 ] 经 常 更 新 相关 资源 的 链接 列表 一 一 “The new Python asyncio 
module aka ‘tulip’””(http://haypo-notes.readthedocs.org/asyncio.html)。 此 外 ， 收 集 asyncio 
资源 的 还 有 Asyncio.org 网 站 (http://asyncio.org/) 和 GitHub 中 的 aio-libs 组织 (https:// 
github.com/aio-libs)， 在 这 两 个 网 站 中 能 找到 PostgreSQL、MySQL 和 多 种 NoSQL 数据 库 
的 异步 驱动 。 我 没有 测试 过 这 些 驱动 ， 不 过 写作 本 书 时 ， 这 些 项 目 好 像 十 分 活跃 。 


Web 服务 将 成 为 asyncio 包 的 重要 使 用 场景 。 你 的 代码 有 可 能 要 依赖 Andrew Svetlov 领 
衔 开 发 的 aiohttp Æ (http:/aiohttp.readthedocs.org/en/) 。 你 可 能 还 想 架 设 环 境 ， 测 试 错 
误 处 理 代 码 ， 在 这 方面 ，Alexis Métaireau 和 Tarek Ziadé 开发 的 Vaurien (混沌 TCP 代 
HL”, http://vaurien.readthedocs.org/en/1.8/) 极其 有 用 。Vaurien 是 为 Mozilla Services m H 
(https://mozilla-services.github.io/) 开发 的 ， 用 于 在 程序 与 后 端 服 务 器 (例如 ， 数 据 库 和 
Web 服务 提供 方 ) 之 间 的 TCP 流量 中 引入 延迟 和 随机 错误 。 
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有 很 长 一 段 时 间 ， 大 多 数 Python 高 手 开发 网 络 应 用 时 喜欢 使 用 异步 编程 ， 但 是 总 会 遇 
到 一 个 问题 挑选 的 库 之 间 不 兼容 。Ryan Dahl 提 到 ，Twisted 是 Node.js 的 灵感 来 
源 之 一 ; 而 在 Python 中 ，Tornado 拥护 使 用 协 程 做 面向 事件 编程 。 


在 JavaScript 社区 里 还 有 争论 ， 有 些 人 推崇 使 用 简单 的 回调 ， 而 有 些 人 提倡 使 用 与 回 
调处 于 竞争 地 位 的 各 种 高 层 抽象 方式 。Node.js 早期 版 本 的 API 使 用 的 是 Promise 对 象 
(类 似 于 Python 中 的 future) ， 但 是 后 来 Ryan Dahl 决定 统一 只 用 回调 。James Coglan ih 
A, Node.js 在 这 一 点 上 错过 了 大 好 良机 (https:Wblog.jcoglan.com/2013/03/30/callbacks- 
are-imperative-promises-are-functional-nodes-biggest-missed-opportunity/) 。 
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Python 社区 的 争论 已 经 结束 : asyncio 包 添 加 到 标准 库 中 之 后 ， 协 程 和 future 被 确定 为 
符合 Python 风格 的 异步 代码 编写 方式 。 此 外 ，asyncio 包 为 异步 future 和 事件 循环 定 
义 了 标准 接口 ， 为 二 者 提供 了 实现 参考 。 
正如 “Python 之 禅 ” 所 说 : 

肯定 有 一 种 一 一 通常 也 是 唯一 一 种 最 佳 的 解决 方案 

不 过 这 并 不 容易 找到 ， 因 为 你 不 是 Python 之 父 
或 许 变 成 荷兰 人 才能 理解 yield from 吧 。” 对 我 这 个 巴西 人 来 说 ,一 开始 并 不 易于 理 
解 ， 不 过 一 段 时 间 之 后 我 理解 了 。 
更 重要 的 是 ， 设 计 asyncio 包 时 考虑 到 了 使 用 外 部 包 替 换 自 身 的 事件 循环 ， 因 此 才 
有 asyncio.get_event_loop 和 set_event_loop 函数 二 者 是 抽象 的 事件 循环 策略 


API (https://docs.python.org/3/library/asyncio-eventloops.html#event-loop-policies-and-the- 
default-policy) 的 一 部 分 。 








Tornado 已 经 有 实现 asyncio.AbstractEventLoop 接口 的 类 AsyncIOMainLoop (http:// 
tornado.readthedocs.org/en/latest/asyncio.html) ， 因 此 在 同一 个 事件 循环 中 可 以 使 用 这 两 
个 库 运 行 异步 代 码 。 此 外 ，Quamash 项目 (https://pypi.python.org/pypi/Quamash/) 也 
很 有 趣 ， 它 把 asyncio 包 集 成 到 Qt 事件 循环 中 ， 以 便 使 用 PyQt 或 PySide 开发 GUI 应 
用 。 我 只 是 举 两 个 例子 ， 说 明 asyncio 包 能 把 面向 事件 的 包 集 成 在 一 起 。 


智能 的 HTTP 客户 端 ， 例 如 单 页 Web 应 用 (如 Gmail) 或 智能 手机 应 用 ， 需 要 快速 、 
轻 量 级 的 响应 和 推送 更 新 。 鉴 于 这 样 的 需求 ， 服 务 器 端 最 好 使 用 异步 框架 ， 不 要 使 用 
传统 的 Web 框架 (如 Django)。 传 统 框 架 的 目的 是 演 数 完整 的 HTML 网 页 ， 而 且 不 支 
持 异 步 访 问 数据 库 。 

WebSockets 协议 的 作用 是 为 始终 连接 的 客户 端 〈 例 如 游戏 和 流 式 应 用 ) 提供 实时 更 
新 ， 因 此 ， 高 并 发 的 异步 服务 器 要 不 间断 地 与 成 百 上 千 个 客户 端 交 互 。asyncio 包 的 
架构 能 很 好 地 支持 WebSockets, 而且 至 少 有 两 个 库 已 经 在 asyncio 包 的 基础 上 实现 了 
WebSockets 协议 : Autobahn|Python (http://autobahn.ws/python/) 和 WebSockets (http:// 


aaugustin.github.io/websockets/) 。 


“实时 Web” 的 整体 发 展 趋势 迅猛 ， 这 是 Node.js 需求 量 不 断 攀 升 的 主要 因素 ， 也 是 
Python 生态 系统 积极 向 asyncio 靠拢 的 重要 原因 。 不 过 ， 要 做 的 事 还 有 很 多 。 为 了 便 
于 入 门 ， 我 们 要 在 标准 库 中 提供 异步 HTTP 服务 器 和 客户 端 API， 异 步 数 据 库 API 3.0 
(https://www.python.org/dev/peps/pep-0249/) ， 以 及 使 用 asyncio 包 构 建 的 新 数据 库 驱 动 。 














{È 17: Python 之 父 Guido van Rossum 是 荷兰 人 。 一 -一 译 者 注 
注 18: 应 该 是 : PEP 249 一 Python Database API Specification v2.0。 一 一 编者 注 
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与 Node.js 相 比 ， 含 有 asyncio 包 的 Python 3.4 最 大 的 优势 是 Python AY: Python 语 
言 设 计 良 好 ， 使 用 协 程 和 yield from 结构 编写 的 异步 代码 比 JavaScript 采用 的 古老 回 
调 易 于 维护 。 而 我 们 最 大 的 劣势 是 库 ，Python 自 带 了 很 多 库 ， 但 是 那些 库 不 支持 异步 
编程 。Node.js 库 的 生态 系统 丰富 ， 完 全 建构 在 异步 调用 之 上 。 但 是 ，Python 和 Node. 
js 都 有 一 个 问题 ， 而 Go 和 Erlang 从 一 开始 就 解决 了 这 个 问题 我 们 编写 的 代码 无 法 
轻松 地 利用 所 有 可 用 的 CPU 核心 。 


Python 标准 化 了 事件 循环 接口 ， 还 提供 了 一 个 异步 库 ， 这 是 一 大 进步 ， 而 且 只 有 我 
们 仁 扔 的 独裁 者 能 在 众多 深入 人 心 且 高 质量 的 替代 方案 中 选择 这 种 方式 。 具 体 实 现 
时 ， 他 咨询 了 多 个 重要 的 Python 异步 框架 的 作者 ， 其 中 受 Glyph Lefkowitz (Twisted 
的 主要 开发 者 ) 的 影响 最 深 。 如 果 你 想 知 道 为 什么 asyncio.Future 类 与 Twisted 中 的 
Deferred 类 不 同 ， 一 定 要 阅读 Guido 在 Python-tulip 讨论 组 中 发 布 的 一 篇 文章 ， 题 为 
“Deconstructing Deferred” (https://groups.google.com/forum/#!ms¢g/python-tulip/ut4vTG- 
08k8/PWZzUXX9HYIJ), Guido 对 Twisted 这 个 最 古老 也 是 最 大 的 Python 异步 框架 充 
aC, & python-twisted 讨论 组 中 讨论 设计 方案 时 ， 他 其 至 说 ,， “What Would Twisted 
Do (WWTD)”, ” 





幸好 有 Guido van Rossum 4r k IF, ik Python 以 更 好 的 姿态 应 对 当前 的 并 发 挑战 。 若 想 
精通 asyncio 包 ， 一定 要 下 一 番 功 夫 。 可 是 ， 如 果 你 计划 使 用 Python 编写 并 发 网 络 应 
用 ， 那 就 去 寻求 至 尊 循 环 (the One Loop) : 


至 尊 循 环 驭 众生 ， 至 尊 循 环 寻 众生 ， 
至 苯 循 环 引 众生 ， 普 照 众生 欣欣 荣 。 




















j 
— 
O 
Er 
co 











| Guido F 2015 年 1 月 29 日 发 布 的 消息 (https://eroups.google.com/forum/#!msg/python-tulip/pPMwts- 








CvUcw/eloX_n8FSPwJ), ， 然 后 Glyph 立即 回复 了 这 一 消息 。 
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元 编程 


第 19 章 


动态 属性 和 特性 





特性 至 关 重 要 的 地 方 在 于 ， 特 性 的 存在 使 得 开发 者 可 以 非常 安全 并 且 确 定 可 行 地 将 
公共 数据 属性 作为 类 的 公共 接口 的 一 部 分 开放 出 来 。! 





Alex Martelli 
Python 贡献 者 和 图 书 作 者 


在 Python 中 ， 数 据 的 属性 和 处 理 数 据 的 方法 统称 属性 (attribute), Hse, 方法 只 是 可 调用 
的 属性 。 除 了 这 二 者 之 外 ， 我 们 还 可 以 创建 特性 (property) ， 在 不 改变 类 接口 的 前 提 下 ， 
使 用 存 取 方法 〈 即 读 值 方法 和 设 值 方法 ) 修改 数据 属性 。 这 与 统一 访问 原则 相符 : 
不 管 服务 是 由 存储 还 是 计算 实现 的 ， 一 个 模块 提供 的 所 有 服务 都 应 该 通过 统一 的 方 
式 使 用 。? 


除了 特性 ，Python 还 提供 了 丰富 的 API， 用 于 控制 属性 的 访问 权限 ， 以 及 实现 动态 属性 。 
使 用 点 号 访问 属性 时 (如 obj.attr)，Python 解释 器 会 调用 特殊 的 方法 (如 __getattr__ 和 
__setattr__) 计算 属性 。 用 户 自己 定义 的 类 可 以 通过 __getattr_ 方法 实现 “虚拟 属性 ”， 
当 访问 不 存在 的 属性 时 (如 obj.no_such_attribute), ， 即 时 计算 属性 的 值 。 

动态 创建 属性 是 一 种 元 编程 ， 框 架 的 作者 经 常 这 么 做 。 然 而 ， 在 Python 中 ， 相 关 的 基础 技 
术 十 分 简单 ， 任 何人 都 可 以 使 用 ， 其 至 在 日 常 的 数据 转换 任务 中 也 能 用 到 。 下 面 以 这 种 任 
务 开启 本 章 的 话题 。 




















= 

















TE 1: «Python 技术 手册 (第 2 版 )》 第 101 页 。( 该 书 中 文 版 把 “property” 译 为 属性 ， 这 里 改 为 “特性 ”， 
其 他 内 容 与 原来 的 翻译 相同 。 一 一 译 者 注 ) 
注 2: Bertrand Meyer, Object-Oriented Software Construction, 2E, p. 57. 
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19.1 使 用 动态 属性 转换 数据 





JSON 格式 数据 产 。 示 例 19-1 是 那个 数据 源 中 的 4 个 记录 。” 
示例 19-1 osconfeed.json 文件 中 的 记录 示例 ; 市 略 了 部 分 字段 的 内 容 


{ "Schedule": 
{ "conferences": [{"serial": 115 }], 
"events": [ 
{ "serial": 34505, 
"name": "Why Schools Don’t Use Open Source to Teach Programming", 
"event_type": "40-minute conference session", 


"time_start": "2014-07-23 11:30:00", 
"time_stop": "2014-07-23 12:10:00", 
"venue_serial": 1462, 


"description": "Aside from the fact that high school programming...", 














在 接 下 来 的 几 个 示例 中 ， 我 们 要 使 用 动态 属性 处 理 O'Reilly 为 OSCON 2014 大 会 提供 的 


"website_url": "http://oscon.com/oscon2014/public/schedule/detail/34505", 


"speakers": [157509], 
"categories": ["Education"] } 

l; 

"speakers": [ 

{ "serial": 157509, 

"name": "Robert Lefkowitz", 
"photo": null, 
"url": "http://sharewave.com/", 
"position": "CTO", 
"affiliation": "Sharewave", 
"twitter": "sharewaveteam", 


"bio": "Robert “rOml’ Lefkowitz is the CTO at Sharewave, a startup... 


]， 
"venues": [ 
{ "serial": 1462, 

"name": "F151", 
"category": "Conference Venues" } 

] 

} 
} 





那个 JSON 源 中 有 895 条 记录 ， 示 例 19-1 只 列 出 了 4 条。 可 以 看 出 ， 整 个 数据 集 是 一 个 
JSON 对 象 ， 里 面 有 一 个 键 ， 名 为 "Schedule" ; 这 个 键 对 应 的 值 也 是 一 个 映像 ， 有 4 个 键 : 
"conferences", "events", "speakers" 和 "venues", X 4 个 键 对 应 的 值 都 是 一 个 记录 列表 。 


























在 示例 19-1 中 ， 各 个 列表 中 只 有 一 条 记录 。 然 而 ， 在 完整 的 数据 集中 ， 列 表 中 有 成 百 上 千 


Aiba. Pit, "conferences" 键 对 应 的 列表 中 只 有 一 条 记录 ， 如 上 述 示例 所 示 。 这 4 个 列 
表 中 的 每 个 元 素 都 有 一 个 名 为 "serial" 的 字段 ， 这 是 元 素 在 各 个 列表 中 的 唯一 标识 符 。 



































注 3: 关于 这 个 数据 源 及 其 使 用 规则 ， 请 阅读 “DIY: OSCON schedule” 一 文 (http://conferences.oreilly.com/oscon/ 


oscon2014/public/content/schedulefeed)。 那 个 JSON 文件 有 744KB， 我 写作 本 书 时 还 在 网 上 (http://www. 
oreilly.com/pub/sc/osconfeed)。 本 书 代 码 仓 库 中 的 oscon-schedule/data/ 目录 里 有 个 副本 ,文件 名 为 osconfeed. 





json (https://github.com/fluentpython/example-code/tree/master/19-dyn-attr-prop/oscon/data) 。 
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我 编写 的 第 一 个 脚本 只 用 于 下 载 那个 OSCON 数据 源 。 为 了 避免 浪费 流量 ， 我 会 先 检 查 本 
地 有 没有 副本 。 这 么 做 是 合理 的 ， 因 为 OSCON 2014 大 会 已 经 结束 ， 数 据 源 不 会 再 更 新 。 


示例 19-2 没 用 到 元 编程 ， 几 乎 所 有 代码 的 作用 可 以 用 这 一 个 表达 式 概括 :json.toad(fp)。 
不 过 ， 这 样 足以 处 理 那个 数据 集 了 。osconfeed.toad 函数 会 在 后 面 几 个 示例 中 用 到 。 


示例 19-2 osconfeed.py: 下 载 osconfeed.json (doctest 在 示例 19-3 中 ) 
from urllib.request import urlopen 
import warnings 
import os 
import json 



























































URL = 'http://www.oreilly.com/pub/sc/osconfeed' 
JSON = 'data/osconfeed.json' 


def load(): 
if not os.path.exists(JSON): 
msg = ‘downloading {} to {}'.format(URL, JSON) 
warnings.warn(msg) @ 
with urlopen(URL) as remote, open(JSON, 'wb') as local: @ 
local.write(remote.read()) 


with open(JSON) as fp: 
return json.load(fp) © 


O 如 有 果 需 要 下 载 ， 就 发 出 提醒 。 
O 在 with 语句 中 使 用 两 个 上 下 文 管理 器 (从 Python 2.7 和 Python 3.1 起 允许 这 么 做 )， 分 

别 用 于 读 取 和 保存 远程 文件 。 
© json.load 函数 解析 JSON 文件 ， 返 回 Python 原生 对 象 。 在 这 个 数据 产 中 有 这 几 种 数据 


类 型 : dict, list, str 和 int。 


有 了 示例 19-2 中 的 代码 ， 我 们 可 以 审查 数据 源 中 的 任何 字段 ， 如 示例 19-3 所 示 。 



























































示例 19-3 osconfeed.py: 示例 19-2 的 doctest 
>>> feed = Load() © 
>>> sorted(feed['Schedule'].keys()) @ 
['conferences', 'events', 'speakers', 'venues' ] 
>>> for key, value in sorted(feed['Schedule'].items()): 
print('{:3} {}'.format(len(value), key)) © 


Be 


conferences 
494 events 
357 speakers 
53 venues 
>>> feed['Schedule']['speakers'][-1]['name'] @ 
"Carina C. Zona' 
>>> feed['Schedule']['speakers'][-1]['serial'] © 
141590 
>>> feed['Schedule']['events'][40]['name' ] 
"There *Will* Be Bugs' 
>>> feed['Schedule']['events'][40]['speakers'] © 
[3471, 5199] 
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Q feed 的 值 是 一 个 字典 ， 里面 娱 套 着 字典 和 列表 ， 存 储 着 字符 串 和 整数 。 
@ 列 出 "schedule" 键 中 的 4 个 记录 集合 。 

O 显示 各 个 集合 中 的 记录 数量 。 

O 深入 先 套 的 字典 和 列表 ， 获 取 最 后 一 个 演讲 者 的 名 字 。 

O 获取 那 位 演讲 者 的 编号 。 

O 每 个 事件 都 有 一 个 "speakers' 字段 ， 列 出 0 个 或 多 个 演讲 者 的 编号 。 


19.1.1 使 用 动态 属性 访问 JSON 类 数据 

示例 19-2 十 分 简单 ， 不 过 ，feed['Schedule']['events'][40]['name'] 这 种 句法 很 元 长 。 
在 JavaScript 中 ， 可 以 使 用 feed.Schedute.events[40] .name 获取 那个 值 。 在 Python 中 ， 可 
以 实现 一 个 近似 字典 的 类 (网 上 有 大 量 实现 )“, 达 到 同样 的 效果 。 我 自己 实现 了 FrozenJSON 
类 ， 比 大 多 数 实现 都 简单 ， 因 为 只 支持 读 取 ， 即 只 能 访问 数据 。 不 过 ， 这 个 类 能 递归 ， 自 
动 处 理 骨 套 的 映射 和 列表 。 

示例 19-4 演示 FrozenJSON 类 的 用 法 ， 源 代码 在 示例 19-5 中 。 






































示例 19-4 示例 19-5 7 AY FrozenJSON 类 能 读 取 属性 ， 如 nane， 还 能 调用 方法 ， 
如 .keys() 和 .items() 


>>> from osconfeed import Load 

>>> raw_feed = load() 

>>> feed = FrozenJSON(raw_feed) @ 

>>> len(feed.Schedule.speakers) @ 

357 

>>> sorted(feed.Schedule.keys()) © 

['conferences', 'events', 'speakers', 'venues' ] 

>>> for key, value in sorted(feed.Schedule.items()): @ 
print('{:3} {}'.format(len(value), key)) 


1 conferences 
494 events 
357 speakers 
53 venues 
>>> feed.Schedule.speakers[-1].name © 
"Carina C. Zona' 
>>> talk = feed.Schedule.events[40] 
>>> type(talk) QO 
<class ‘explore0.FrozenJSON'> 
>>> talk.name 
"There *Will* Be Bugs' 
>>> talk.speakers @ 
[3471, 5199] 
>>> talk.flavor @ 
Traceback (most recent call last): 


KeyError: 'flavor' 








注 4: 最 常 提 到 的 一 个 实现 是 AttrDict (https:Wpypi.python.org/pypi/attrdict) ， 还 有 一 个 实现 能 快速 创建 欢 套 
的 映射 








addict (https://pypi.python.org/pypi/addict) 。 
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O 传人 柑 套 的 字典 和 列表 组 成 的 raw_feed， 创 建 一 个 FrozenJSON 实例 。 

@: FrozenJSON 实例 能 使 用 属性 表示 法 遍历 徐 套 的 字典 ， 这里， 我 们 获取 演讲 者 列表 的 元 素 

© 也 可 以 使 用 底层 字典 的 方法 ， 例如 .keys()， 获 取 记 录 集 合 的 名 称 。 

O 使 用 items() 方法 获取 各 个 记录 集合 及 其 内 容 ， 然 后 显示 各 个 记录 集合 中 的 元 素数 量 。 

O 列表 ,例如 feed.Schedule.speakers， 仍 是 列表 ; 但 是 ， 如 果 里 面 的 元 素 是 映射 ,会 转 
换 成 FrozenJSON 对 象 。 

QO events 列表 中 的 40 号 元 素 是 一 个 JSON 对 象 ， 现 在 则 变 成 一 个 FrozenJSON 实例 。 

O 事件 记录 中 有 一 个 speakers 列表 ， 列 出 演讲 者 的 编号 。 

O 读 取 不 存在 的 属性 会 抛 出 KeyError 异常 ， 而 不 是 通常 抛 出 的 AttributeError 异常 。 


FrozenJSON 类 的 关键 是 _getattr__ 方 法。 我 们 在 10.5 节 的 Vector 示例 中 用 过 这 个 方法 ， 
DoD ae Vector 对 象 的 分 量 (例如 v.x、v.y、v.z)。 我 们 要 记 住 重要 的 一 
点 ， 仅 当 无 法 使 用 常规 的 方式 获取 属性 〈 即 在 实例 、 类 或 超 类 中 找 不 到 指定 的 属性 )， 解 
会 调用 特殊 的 _getattr_ ”方法 。 


示例 19-4 的 最 后 一 行 揭露 了 这 个 实现 的 一 个 小 问题 : 理论 上 ， 尝 试 读 取 不 存在 的 属性 应 该 
抛 出 AttributeError 异常 。 甚 实 ， 一 开始 我 对 这 个 异常 做 了 处 理 ， 但 是 _getattr__ 方法 
的 代码 量 增 加 了 一 倍 ， 而 且 偏离 了 我 最 想 展示 的 重要 逻辑 ， 因 此 为 了 教学 ， 后 来 我 把 那 部 
分 代码 去 掉 了 。 


如 示例 19-5 所 示 ，FrozenJSON 类 只 有 两 个 方法 (init 和 __getattr_) 和 一 个 实例 属 
性 _data。 因 此 ， 尝 试 歼 取 其 他 属性 会 触发 解释 器 调用 _getattr 方法 。 这 个 方法 首先 
查看 self._data 字典 有 没有 指定 名 称 的 属性 (不 是 键 )， 这 样 FrozenJSON 实例 便 可 以 处 
里 字典 的 所 有 方法 ， 例 如 把 items 方法 委托 给 self._data.items() 方 法。 如 果 self.__ 
data 没有 指定 名 称 的 属性 ， 那 么 _getattr__ 方法 以 那个 名 称 为 键 ， 从 self.__data 中 获 
取 一 个 元 素 ， 传 给 FrozenJSON.build 方法 。 这 样 就 能 深入 JSON 数据 的 岁 套 结构 ， 使 用 类 
方法 build 把 每 一 层 磐 套 转换 成 一 个 FrozenJSON 实例 。 


示例 19-5 ”explore0.py: 把 一 个 JSON Bc He Se 4 eK — THE A FrozenJSON 对 象 、 列 表 
和 简单 类 型 的 FrozenJSON 对 象 


from collections import abc 








































































































Ne 








class FrozenJSON: 


""" 一 个 只 读 接口 ,使 用 属性 表示 法 访问 JSON 类 对 象 











def _ init__(self, mapping): 
self.__data = dict(mapping) © 


def _ getattr_ (self, name): @ 
if hasattr(self.__data, name): 
return getattr(self.__data, name) © 
else: 
return FrozenJSON.build(self.__data[name]) @ 
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@classmethod 
def build(cls, obj): @ 
if isinstance(obj, abc.Mapping): © 
return cls(obj) 
elif isinstance(obj, abc.MutableSequence): @ 
return [cls.build(item) for item in obj] 
else: O 
return obj 
O (EH mapping 参数 构建 一 个 字典 。 这 么 做 有 两 个 目的 : (1) 确保 传 入 的 是 字典 (或 者 是 
能 转换 成 字典 的 对 象 ) ;，(2) 安全 起 见 ， 创 建 一 个 副本 。 
O 仅 当 没有 指定 名 称 (name) 的 属性 时 才 调 用 _getattr_ “方法 。 
© AA name 是 实例 属性 _data 的 属性 ， 返 回 那 个 属性 。 调 用 keys 等 方法 就 是 通过 这 种 
方式 处 理 的 。 
© Gill, Mself.__data 中 获取 name 键 对 应 的 元 素 ， 返 回调 用 FrozenJSON.build() 方法 
得 到 的 结果 。” 
O 这 是 一 个 备 选 构造 方法 ，@ctassmethod 装饰 器 经 常 这 么 用 。 
O 如 果 obj 是 映射 ， 那 就 构建 一 个 FrozenJSON 对 象 。 
@ 如 果 是 MutableSequence 对 象 ， 必 然 是 列表 ,“ 因此 ， 我 们 把 obj 中 的 每 个 元 素 递归 地 传 
给 .build() 方法 ， 构 建 一 个 列表 。 
O 如 果 既 不 是 字典 也 不 是 列表 ， 那 么 原封 不 动 地 返回 元 素 。 
注意 ， 我 们 没有 缓存 或 转换 原始 数据 产 。 在 友 代 数据 源 的 过 程 中 ， 和 套 的 数据 结构 不 断 被 
转换 成 FrozenJSON 对 象 。 这 么 做 没 问 题 ， 因 为 数据 集 不 大 ， 而 且 这 个 脚本 只 用 于 访问 或 转 
换 数据 。 
从 随机 源 中 生成 或 仿效 动态 属性 名 的 脚本 都 必须 处 理 一 个 问题 ， 原 始 数 据 中 的 键 可 能 不 适 
合作 为 属性 名 。 下 一 节 处 理 这 个 问题 。 


19.1.2 ”处 理 无 效 属性 名 
FrozenJSON 类 有 个 缺陷 : 没有 对 名 称 为 Python 关键 字 的 属性 做 特殊 处 理 。 比 如 说 像 下 面 这 
样 构建 一 个 对 象 ; 
>>> grad = FrozenJSON({'name': 'Jim Bo', 'class': 1982}) 
此 时 无 法 读 取 grad.class 的 值 ， 因 为 在 Python 中 class 是 保留 字 : 


>>> grad.class 
File "<stdin>", Line 1 


grad.class 
A 




































































SyntaxError: invalid syntax 





TE 5: 这 一 行 中 的 self.__data[name] 表达 式 可 能 抛 出 KeyError 异常 。 我 们 应 该 处 理 这 个 异常 ， 抛 出 
AttributeError 异常 ， 因 为 这 才 是 _getattr_ “方法 应 该 抛 出 的 异常 种 类 。 建 议 勤奋 的 读者 实现 错误 
处 理 代码 ， 当 作 一 个 练习 。 
注 6: 数据 源 是 ISON 格式 ， 而 在 JSON 中 ， 只 有 字典 和 列表 是 集合 类 型 。 
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当然 ， 可 以 这 么 做 : 


>>> getattr(grad, 'class') 


1982 
但 是 ，FrozenJSON 类 的 目的 是 为 了 便于 访问 数据 ， 因 此 更 好 的 方法 是 检查 传 给 Frozen- 
JSON._init “方法 的 映射 中 是 否 有 键 的 名 称 为 关键 字 ， 如 果 有 ， 那 么 在 键 名 后 加 上 _， 然 
后 通过 下 述 方式 读 取 : 

>>> grad.class_ 

1982 





为 此 ， 我 们 可 以 把 示例 19-5 中 只 有 一 行 代码 的 init 方法 改 成 示例 19-6 中 的 版 本 。 
示例 19-6 explorel.py: 在 名 称 为 Python 关键 字 的 属性 后 面 加 上 _ 


def _ init__(self, mapping): 
self. data = {} 
for key, value in mapping.items(): 
if keyword.iskeyword(key): @ 
key += '_' 
self.__data[key] = value 


@ keyword.iskeyword(...) 正 是 我 们 所 需 的 国 数 ， 为 了 使 用 它 ， 必 须 导 入 keyword 模块 ， 
这 个 代码 片段 没有 列 出 导入 语句 。 
如 果 ISON 对 象 中 的 键 不 是 有 效 的 Python 标识 符 ， 也 会 遇 到 类 似 的 问题 : 


>>> x = FrozenJSON({'2be':'or not'}) 
>>> x.2be 
File "<stdin>", Line 1 
x.2be 
Nn 


























SyntaxError: invalid syntax 


这 种 有 问题 的 键 在 Python 3 中 易于 检测 ， 因 为 str 类 提供 的 s.isidentifier() 方法 能 根据 
语言 的 语法 判断 s 是 否 为 有 效 的 Python 标识 符 。 但 是 ， 把 无 效 的 标识 符 变 成 有 效 的 属性 名 
却 不 容易 。 对 此 ， 有 两 个 简单 的 解决 方法 ， 一 个 是 抛 出 异常 ， 另 一 个 是 把 无 效 的 键 换 成 通 
用 名 称 ， 例 如 attr 0、attr_1， 等 等 。 为 了 简单 起 见 ， 我 将 忽略 这 个 问题 。 

对 动态 属性 的 名 称 做 了 一 些 处 理 之 后 ， 我 们 要 分 析 FrozenJSON 类 的 另 一 个 重要 功能 类 
方法 build 的 逻辑 。 这 个 方法 把 各 套 结构 转换 成 FrozenJSON 实例 或 Frozen]JSON 实例 列表 ， 
因此 _getattr_ “方法 使 用 这 个 方法 访问 属性 时 ， 能 为 不 同 的 值 返回 不 同类 型 的 对 象 。 

除了 在 类 方法 中 实现 这 样 的 逻辑 之 外 ， 还 可 以 在 特殊 的 new 方法 中 实现 ， 如 下 一 节 所 述 。 


19.1.3 ”使 用 _new_ 方法 以 灵活 的 方式 创建 对 象 

我 们 通常 把 _init__“ 称 为 构造 方法 ， 这 是 从 其 他 语言 借鉴 过 来 的 术语 。 其 实 ， 用 于 构建 实 
例 的 是 特殊 方法 new: 这 是 个 类 方法 (使 用 特殊 方式 处 理 ， 因 此 不 必 使 用 @classmethod 
装饰 器 ) ， 必 须 返 回 一 个 实例 。 返 回 的 实例 会 作为 第 一 个 参数 ( 即 self) 传 给 _init FH 
法 。 因 为 调用 _init “方法 时 要 传 和 人 实例， 而且 禁 止 返 回 任何 值 ， 所 以 _init “方法 其 
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实 是 “初始 化 方法 ”"。 真 正 的 构造 方法 是 _new_“。 我 们 几乎 不 需要 自己 编写 _new “方法 ， 
因为 从 object 类 继承 的 实现 已 经 足够 了 。 


刚才 说 明 的 过 程 ， 即 从 __new_ 方 法 到 __init_ 方 法， 是 最 常见 的 ， 但 不 是 唯一 的 。 
new 方法 也 可 以 返回 其 他 类 的 实例 ， 此 时 ， 解 释 器 不 会 调用 init 方法 。 


也 就 是 说 ，Python 构建 对 象 的 过 程 可 以 使 用 下 述 伪 代 码 概 括 : 
# 构建 对 象 的 伪 代码 


def object_maker(the_class, some_arg): 
new_object = the_class.__new__(some_arg) 
if isinstance(new_object, the_class): 
the_class.__init__(new_object, some_arg) 
return new_object 




















# 下 述 两 个 语句 的 作用 基本 等 效 

x = Foo('bar') 

x = object_maker(Foo, 'bar') 
示例 19-7 是 FrozenJSON 类 的 另 一 个 版 本 ， 把 之 前 在 类 方法 build 中 的 逻辑 移 到 了 new 
方法 中 。 


示例 19-7 explore2.py: 使 用 _new 方法 取代 build 方法， 构建 可 能 是 也 可 能 不 是 
FrozenJSON 实例 的 新 对 象 


from collections import abc 








class FrozenJSON: 


""" 一 个 只 读 接 口 ,使 用 属性 表示 法 访问 JSON 类 对 象 




















def _new_(cls, arg): © 
if isinstance(arg, abc.Mapping): 
return super().__new_(cls) @ 
elif isinstance(arg, abc.MutableSequence): © 
return [cls(item) for item in arg] 
else: 
return arg 


def _ init__(self, mapping): 
self. data = {} 
for key, value in mapping.items(): 
if iskeyword(key): 
key += '_' 
self.__data[key] = value 


def _ getattr__(self, name): 
if hasattr(self.__data, name): 
return getattr(self. data, name) 
else: 
return FrozenJSON(self.__data[name]) @ 
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O _new 是 类 方法 ， 第 一 个 参数 是 类 本 身 ， 余 下 的 参数 与 _init_ 方法 一 样 ， 只 不 过 没 
有 self, 
O 默认 的 行为 是 委托 给 超 类 的 _new_ 方 法。 这 里 调用 的 是 object 基 类 的 _new__ 方 法 ， 
把 唯一 的 参数 设 为 Frozen]JSON。 
© _new 方法 中 余下 的 代码 与 原先 的 build 方法 完全 一 样 。 
O 之 前 ， 这 里 调用 的 是 FrozenJSON.build 方法 ,现在 只 需 调用 FrozenJSON 构造 方法 。 
_new 方法 的 第 一 个 参数 是 类 ， 因 为 创建 的 对 象 通 常 是 那个 类 的 实例 。 所 以 ， 在 
FrozenJSON._new__ 方法 中 ，super()._new__(cls) 表达 式 会 调用 object.__new__(FrozenJSON), 
而 object 类 构建 的 实例 其 实 是 FrozenJSON 实例 ， 即 那个 实例 的 _class_ 属性 存储 的 是 
FrozenJSON 类 的 引用 。 不 过 ， 真 正 的 构建 操作 由 解释 器 调用 C 语言 实现 的 object._new_ 方 
法 执行 。 
OSCON 的 JSON 数据 源 有 一 个 明显 的 缺点 : 索引 为 40 的 事件 ， 即 名 为 “There *Will* Be 
Bugs' 的 那个 ， 有 两 位 演讲 者 ，3471 和 5199， 但 却 不 容易 找到 他 们 ， 因 为 提供 的 是 编号 ， 
而 Schedule.speakers 列表 没有 使 用 编号 建立 索引 。 此 外 ， 每 条 事件 记录 中 都 有 venue_ 
serial 字段 ， 存 储 的 值 也 是 编号 ， 但 是 如 果 想 找到 对 应 的 记录 ， 那 就 要 线性 搜索 Schedule. 
venues 列表 。 接 下 来 的 任务 是 ， 调 整数 据 结 构 ， 以 便 自动 获取 所 链接 的 记录 。 


19.1.4 ”使 用 shelve 模 块 调整 OSCON 数 据 源 的 结构 


标准 库 中 有 个 shelve (架子 ) 模块 ， 这 名 字 听 起 来 怪 怪 的 ， 可 是 如 果 知 道 picktle (泡菜 ) 
是 Python 对 象 序列 化 格式 的 名 字 ， 还 是 在 那个 格式 与 对 象 之 间 相 互 转换 的 茶 个 模块 的 名 
字 ， 就 会 觉得 以 shelve 命名 是 合理 的 。 泡 菜 坛子 摆 放 在 架子 上 ， 因 此 shelve 模块 提供 了 
pickle 存储 方式 。 


shelve.open 高 阶 函数 返回 一 个 shelve. Shelf 实例 ， 这 是 简单 的 键 值 对 象 数据 库 ， 背 后 由 
dbm 模块 支持 ， 具 有 下 述 特点 。 


e shelve.Shelf 是 abc.MutableMapping 的 子 类 ， 因 此 提供 了 处 理 映 射 类 型 的 重要 方法 。 

。 此 外 ，shelve.Shelf 类 还 提供 了 几 个 管理 IO 的 方法 ， 如 sync Fl close; 它 也 是 一 个 上 
下 文 管理 器 。 

。 只 要 把 新 值 赋 了 予 键 ， 就 会 保存 键 和 值 。 

。 键 必 须 是 字符 串 。 

。 值 必须 是 pickle 模块 能 处 理 的 对 象 。 

shelve (https://docs.python.org/3/library/shelve.html)、 dbm (https://docs.python.org/3/library/ 

dbm.html) 和 pickle 模块 (https://docs.python.org/3/library/pickle.html) 的 详细 用 法 和 注意 

事项 参见 文档 。 现 在 值得 关注 的 是 ，shelve 模块 为 识别 OSCON 的 日 程 数据 提供 了 一 种 简 

单 有 效 的 方式 。 我 们 将 从 ISON 文件 中 读 取 所 有 记录 ， 将 其 存在 一 个 shelve.Shelf 对 象 

中 ， 键 由 记录 类 型 和 编号 组 成 (例如 ，'event.33950' aK 'speaker.3471'), ， 而 值 是 我 们 即 

将 定义 的 Record 类 的 实例 。 


实例 19-8 是 schedulel.py 脚本 的 doctest， 使 用 shelve 模块 处 理 数 据 源 。 若 想 以 交互 式 方 
式 测 试 ， 要 执行 python -i schedulet.py 命令 运行 脚本 ， 启 动 加 载 了 schedutel 模块 的 控 
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制 台 。 主 要 工作 由 Load_db 函数 完成 : 调用 osconfeed.load 方法 (在 示例 19-2 中 定义 ) 读 
IX JSON 数据 ， 把 通过 db 传人 的 Shelf 对 象 中 的 各 条 记录 存储 为 一 个 个 Record 实例 。 这 
样 处 理 之 后 ， 获 取 演 讲 者 的 记录 就 容易 了 ， 例 如 speaker = db['speaker.3471'], 


示例 19-8 测试 schedulel.py 脚本 ( 见 示例 19-9) 提供 的 功能 
>>> import shelve 
>>> db = shelve.open(DB_NAME) @ 
>>> if CONFERENCE not in db: @ 
load_db(db) © 





>>> speaker = db['speaker.3471'] @ 

>>> type(speaker) © 

<class 'schedule1.Record'> 

>>> speaker.name, speaker.twitter ©@ 
('Anna Martelli Ravenscroft', 'annaraven') 
>>> db.close() @ 


@ shelve.open 函数 打开 现 有 的 数据 库 文件 ， 或 者 新 建 一 个 。 

O 判断 数据 库 是 否 填充 的 简便 方法 是 ， 检 查 某 个 已 知 的 键 是 否 存在 ;这 里 检查 的 键 是 
conference.115， 即 conference 记录 (只 有 一 个 ) 的 键 。 

© 如 果 数 据 库 是 空 的 ， 那 就 调用 Load_db(db) ， 加 载 数据 。 

O 获取 一 条 speaker 记录 。 

© 它 是 示例 19-9 中 定义 的 Record 类 的 实例 。 

O 各 个 Record 实例 都 有 一 系列 自 定义 的 属性 ， 对 应 于 底层 ISON 记录 里 的 字段 。 

O 一 定 要 记得 关闭 shelve.Shelf 对 象 。 如 果 可 以 ， 使 用 with 块 确保 Shelf 对 象 会 关闭 。” 


schedulel.py 脚本 的 代码 在 示例 19-9 中 。 


示例 19-9 schedulel.py: 访问 保存 在 shelve. Shelf 对 象 里 的 OSCON 日 程 数 据 


import warnings 




















import osconfeed @ 


DB_NAME = 'data/schedule1_db' 
CONFERENCE = 'conference.115' 


class Record: 
def __ init__(self, **kwargs): 
self.__dict__.update(kwargs) @ 


def load_db(db): 
raw_data = osconfeed.load() © 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): @ 

















TE 7: 也 可 以 使 用 Len(db) 判断 ， 不 过 ， 如 果 是 大 型 dbm 数据 库 ， 那 就 很 耗费 时 间 。 
注 8: doctest 有 个 突出 的 弱点 : 无 法 正确 地 设置 资源 并 保证 将 其 销毁 。 我 使 用 py.test 为 schedulel.py 脚本 


























写 了 很 多 测试 ， 在 示例 A-12 中 。 
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record_type = collection[:-1] 日 

for record in rec_list: 
key = '{}.{}'.format(record_type, record['serial']) @ 
record['serial'] = key @ 
db[key] = Record(**record) © 


O 加 载 示例 19-2 中 的 osconfeed.py 模块 。 

O 这 是 使 用 关键 字 参 数 传 入 的 届 性 构建 实例 的 常用 简便 方式 (详情 参见 下 文 )。 

O 如 果 本 地 没有 副本 ， 从 网 上 下 载 ISON 数据 源 。 

O EREA (例如 'conferences' 、'events' ， 等 等 ) 。 

© record_type 的 值 是 去 掉 尾 部 's' 后 的 集合 名 ( 即 把 'events' 变 成 'event' ) 。 

Q 使 用 record_type 和 'serial' 字段 构成 key。 

@ 把 'serial' 字段 的 值 设 为 完整 的 键 。 

© 构建 Record 实例 ， 存 储 在 数据 库 中 的 key 键 名 下 。 

Record.__init__ 方法 展示 了 一 个 流行 的 Python 技巧 。 我 们 知道 ， 对 象 的 _dict_ 属性 中 
存储 着 对 象 的 属性 一 一 前 提 是 类 中 没有 声明 __slots__ 属 性， 如 9.8 节 所 述 。 因 此 ， 更 新 
KAH dict 属性 ， 把 值 设 为 一 个 映射 ， 能 快速 地 在 那个 实例 中 创建 一 堆 属性 。” 

















我 不 会 重 述 19.1.2 节 讨 论 的 细节 ， 不 过 要 知道 ， 在 某 些 应 用 中 ，Record 类 可 
能 要 处 理 不 能 作为 属性 名 使 用 的 键 。 











示例 19-9 中 定义 的 Record 类 太 简 单 了 ， 因 此 你 可 能 会 问 ， 为 什么 之 前 没 用 ， 而 是 使 用 更 
复杂 的 FrozenJSON 类 。 原 因 有 两 个 。 第 一 ，FrozenJSON 类 要 递归 转换 先 套 的 映射 和 列表 ， 
而 Record 类 不 需要 这 么 做 ， 因 为 转换 好 的 数据 集中 疫 有 艇 套 的 映射 和 列表 ， 记 录 中 只 有 字 
符 串 、 整 数 、 字 符 串 列表 和 整数 列表 。 第 二 ，FrozenJSON 类 要 访问 内 艇 的 data 属性 ( 值 
是 字典 ， 用 于 调用 keys 等 方法 ) ， 而 现在 我 们 也 不 需要 这 么 做 了 。 


Python 标准 库 中 至 少 有 两 个 与 Record 类 似 的 类 ， 其 实例 可 以 有 任意 个 属性 ， 
由 传 给 构造 方法 的 关键 字 参 数 构建 一 一 muLtiprocessing.Namespace 类 [ 文 
档 (https://docs.python.org/3/library/multiprocessing.html ?highlight=namespace# 
namespaceobjects), ， 源 码 (https://hg.python.org/cpython/file/50d58 1f69a73/Lib/ 
multiprocessing/managers.py#1909) ] 和 argparse.Namespace 类 [ 文档 (https://docs. 























python.org/3/library/argpa-rse.html#argparse.Namespace), ， 源 码 (https://hg.python. 
org/cpython/file/50d581£69a73/Lib/argparse.py#11196) ]。 我 之 所 以 自己 实现 Record, 
是 为 了 说 明 一 个 重要 的 做 法 : 在 init 方法 中 更 新 实例 的 _dict_ 属性 。 





像 上 面 那样 调整 日 程 数据 集 之 后 ， 我 们 可 以 扩展 Record 类 ， 让 它 提供 一 个 有 用 的 服 











注 9: 顺便 说 一 下 ，2001 年 Alex Martelli 在 “The simple but handy ‘collector of a bunch of named stuff’ class” 
iRE5  (http://code.activestate.com/recipes/52308-the-simple-but-handy-collector-of-a-bunch-of-named/) 中 分 
享 这 个 技巧 时 使 用 的 类 名 是 Bunch, 
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务 : 自动 获取 event 记录 引用 的 venue 和 speaker 记录 。 这 与 Django ORM 访问 models. 
Foreignkey 字段 时 所 做 的 事 类 似 : 得 到 的 不 是 键 ， 而 是 链接 的 模型 对 象 。 在 下 一 个 示例 
中 ， 我 们 要 使 用 特性 来 实现 这 个 服务 。 


19.1.5 ”使 用 特性 获取 链接 的 记录 


下 一 个 版 本 的 目标 是 ， 对 于 从 shelf 对 象 中 获取 的 event 记录 来 说 ， 读 取 它 的 venue 或 
speakers 属性 时 返回 的 不 是 编号 ， 而 是 完整 的 记录 对 象 。 用 法 如 示例 19-10 中 的 交互 代码 
片段 所 示 。 


示例 19-10 ”摘自 schedule2.py 脚本 的 doctest 
>>> DbRecord.set_db(db) @ 
>>> event = DbRecord.fetch('event.33950') @ 
>>> event © 
<Event 'There *Will* Be Bugs'> 
>>> event.venue @ 
<DbRecord serial='venue.1449'> 
>>> event.venue.name @ 
"Portland 251' 
>>> for spkr in event.speakers: @ 
print('{@.serial}: {0.name}'.format(spkr)) 


























speaker .3471: Anna Martelli Ravenscroft 
speaker .5199: Alex Martelli 


@ DbRecord 类 扩展 Record 类 ， 添 加 对 数据 库 的 支持 : 为 了 操作 数据 库 ， 必 须 为 DbRecord 
提供 一 个 数据 库 的 引用 。 

@ DbRecord. fetch 类 方法 能 获取 任何 类 型 的 记录 。 

© 注意 ，event 是 Event 类 的 实例 ， 而 Event 类 扩展 DbRecord 类 。 

@ event.venue 返回 一 个 DbRecord 实例 。 

O HE, WFH event.venue 的 名 称 就 容易 了 。 这 种 自动 取 值 是 这 个 示例 的 目标 。 

© ATLA event. speakers 列表 ， 获 取 表 示 各 位 演讲 者 的 DbRecord 对 象 。 

图 19-1 绘 出 了 本 要 分 析 的 几 个 类 。 


Record 
_init 方法 与 schedulel.py 脚本 ( 见 示例 19-9) 中 的 一 样 ， 为 了 辅助 测试 ， 增 加 了 
eq_ 方法 。 
DbRecord 
Record 类 的 子 类 ,添加 了 __db 类 属性 ， 用 于 设置 和 获取 __db 属性 的 set_db 和 get_db 


静态 方法 ， 用 于 从 数据 库 中 获取 记录 的 fetch 类 方法 ， 以 及 辅助 调试 和 测试 的 _repr__ 
实例 方法 。 


Event 


DbRecord 类 的 子 类 ,添加 了 用 于 获取 所 链接 记录 的 venue 和 speakers 属性 ， 以 及 特殊 
的 _repr__ 方 法 。 
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set db {staticmethod} < 
Cat a shane aad [Event 


fetch {classmethod} venue {property} 
pa speakers {propert 


19-1; 改进 的 Record 类 和 两 个 子 类 (DbRecord 和 Event) 的 UML 类 图 


















DbRecord._db 类 属性 的 作用 是 存储 打开 的 shelve. Shelf 数据 库 引 用 ， 以 便 在 需要 使 用 数据 
库 的 DbRecord. fetch 方法 及 Event.venue 和 Event.speakers 属性 中 使 用 。 我 把 db RAMA 
类 属性 ， 然 后 定义 了 普通 的 读 值 方法 和 设 值 方法 ， 以 防 不 小 心 履 盖 _db 属性 的 值 。 基 于 一 
个 重要 的 原因 ， 我 没有 使 用 特性 去 管理 _db 属性 : 特性 是 用 于 管理 实例 属性 的 类 属性 。” 


本 节 的 代码 在 本 书 仓库 (https://github.com/fluentpython/example-code) 里 的 schedule2.py 模 
块 中 。 这 个 模块 有 100 多 行 ， 因 此 我 会 分 成 几 部 分 分 析 。 

schedule2.py 脚本 的 前 几 个 语句 在 示例 19-11 中 。 

示例 19-11 schedule2.py: 导入 模块 ， 定义 常量 和 增强 的 Record 类 


import warnings 
import inspect @ 















































import osconfeed 


DB_NAME = 'data/schedule2_db' @ 
CONFERENCE = 'conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self.__dict__.update(kwargs) 


def _eq_ (self, other): © 
if isinstance(other, Record): 
return self.__dict__ == other. __dict__ 
else: 
return NotImplemented 


O inspect 模块 在 Load_db 函数 中 使 用 (参见 示例 19-14), 
O 因为 要 存储 几 个 不 同类 的 实例 ， 所 以 我 们 要 创建 并 使 用 不 同 的 数据 库 文件 ， 这 里 不 用 示 
例 19-9 中 的 'schedutLel_db' ， 而 是 使 用 'schedule2_db', 














注 10: Stack Overflow 中 有 个 题 为 “Class-level read only properties in Python” 的 问题 (http://stackoverflow. 
com/questions/1735434/class-level-read-only-properties-in-python) , 为 类 中 的 只 读 属 性 提供 了 解决 方案 ， 
其 中 包括 Alex Martelli 提供 的 一 个 方案 。 这 些 方 案 要 用 到 元 类 ， 因 此 学 习 那 些 方案 之 前 可 能 要 先 读 
本 书 第 21 章 。 















































© ea 方法 对 测试 有 重大 帮助 。 


在 Python 2 中， 只有“ 新式” 类 支持 特性 。 在 Python 2 中 定义 新 式 类 的 方法 
是 ， 直 接 或 间接 继承 object 类 。 示 例 19-11 中 的 Record 类 是 一 个 继承 体系 的 
基 类 ， 用 到 了 特性 ， 因 此 ， 在 Python 2 中 声明 Record 类 时 ， 开 头 要 这 么 写 :“ 


class Record(object): 


# 余下 的 代码 WA 
































接 下 来 ，schedule2.py 脚本 定义 了 两 个 类 一 一 一 个 自 定义 的 异常 类 型 和 DbRecord 类 ， 参 
示例 19-12。 


示例 19-12 schedule2.py: MissingDatabaseError 类 和 DbRecord 类 
class MissingDatabaseError(RuntimeError): 


""" 需 要 数据 库 但 没有 指定 数据 库 时 抛 出 ,""” @ 








class DbRecord(Record): @ 
__db = None © 


@staticmethod @ 
def set_db(db): 
DbRecord.__db = db 日 


@staticmethod © 
def get_db(): 
return DbRecord.__db 


@classmethod @ 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ident] © 
except TypeError: 
if db is None: © 
msg = "database not set; call '{}.set_db(my_db)'" 
raise MissingDatabaseError(msg.format(cls.__name__)) 


else: @ 


raise 


def _ repr__(self): 
if hasattr(self, 'serial'): @ 
cls_name = self.__class__.__name__ 
return '<{} serial={!r}>'.format(cls_name, self.serial) 
else: 
return super().__repr_() 四 





























TELL: 在 Python 3 中 明确 指明 继承 object 类 没有 错 ， 但 是 多 余 ， 因 为 现在 所 有 类 都 是 新 式 的 。 此 例 


见 


说 


明 ， 与 过 去 告别 能 让 语言 更 简洁 。 如 果 要 在 Python 2 和 Python 3 中 运行 同一 段 代 码 ， 应 该 显 式 继承 





object 类 。 
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O 自 定义 的 异常 通常 是 标志 类 ， 没有 定义 体 。 写 一 个 文档 字符 串 ， 说 明 异 常 的 用 途 ， 比 只 
写 一 个 pass 语句 要 好 。 

@ DbRecord 类 扩展 Record 类 。 

© _db 类 属性 存储 一 个 打开 的 shelve.Shelf 数据 库 引 用 。 

O set_db 是 静态 方法 ， 以 此 强调 不 管 调 用 多 少 次 ， 效 果 始 终 一 样 。 

© 即使 调用 Event.set_db(my_ db)，_ db 属性 仍 在 DbRecord 类 中 设置 。 

O get_db 也 是 静态 方法 ， 因 为 不 管 怎 样 调用 ， 返 回 值 始终 是 DbRecord.__db 引用 的 对 象 。 

@ fetch 是 类 方法 ， 因 此 在 子 类 中 易于 定制 它 的 行为 。 

© 从 数据 库 中 获取 ident 键 对 应 的 记录 。 

© 如 果 捕 获 到 TypeError 异常 ， 而 且 db 变量 的 值 是 None， 抛 出 自 定义 的 异常 ， 说 明 必 须 
设置 数据 库 。 

O 否则 ， 重 新 抛 出 TypeError 异常 ， 因 为 我 们 不 知道 怎么 处 理 。 

O 如 果 记 录 有 serial 属性 ， 在 字符 串 表 示 形 式 中 使 用 。 

四 否则， 调用 继承 的 repr 方法 。 


现在 到 这 个 示例 的 重要 部 分 了 一 一 Event 类 ， 如 示例 19-13 所 示 。 


示例 19-13 schedule2.py: Event 类 
class Event(DbRecord): @ 






































@property 

def venue(self): 
key = 'venue.{}'.format(self.venue_seriaL) 
return self.__class__.fetch(key) @ 


@property 
def speakers(self): 
if not hasattr(self, '_speaker_objs'): © 
spkr_serials = self.__dict_['speakers'] @ 
fetch = self. class_ .fetch 日 
self._speaker_objs = [fetch('speaker.{}'.format(key) ) 
for key in spkr_serials] © 
return self._speaker_objs @ 


def _ repr__(self): 
if hasattr(self, 'name'): O 
cls_name = self.__class__.__name__ 
return '<{} {!r}>'.format(cls_name, self.name) 
else: 
return super().__repr_() © 


@ Event 类 扩展 DbRecord 类 。 

@ 在 venue 特性 中 使 用 venue_serial 属性 构建 key， 然 后 传 给 继承 自 DbRecord 类 的 fetch 
类 方法 (详情 参见 下 文 )。 

© speakers 特性 检查 记录 是 否 有 _speaker_objs 属性 。 

O 如 果 没 有 ， 直 接 从 dict 实例 属性 中 获取 'speakers' 属性 的 值 ， 防 止 无 限 递 归 ， 因 
为 这 个 特性 的 公开 名 称 也 是 speakers, 

© 获取 fetch 类 方法 的 引用 〈 稍 后 会 说 明 这 么 做 的 原因 ) 。 
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QO 使 用 fetch 获取 speaker 记录 列表 ， 然 后 赋值 给 seLf._speaker_objs。 
@ 返回 前 面 获 取 的 列表 。 

O 如 果 记 录 有 name 属性 ， 在 字符 串 表 示 形 式 中 使 用 。 

© 否则 ， 调 用 继承 的 _repr__ 方法。 


在 示例 19-13 中 的 venue 特性 里 ， 最 后 一 行 返回 的 是 self._class__.fetch(key)， 为 什么 
不 直接 使 用 seLf.fetch(key) WE? 对 这 个 OSCON 数据 源 来 说 ， 可 以 使 用 后 者 ， 因 为 事件 
记录 都 没有 'fetch' 键 。 哪 怕 只 个 事件 记录 有 名 为 'fetch' 的 键 ， 那 么 在 那个 Event 
实例 中 ，self.fetch 获取 的 是 fetch 字段 的 值 ， 而 不 是 Event 继承 自 DbRecord 的 fetch 类 
方法 。 这 个 缺陷 不 明显 ， 很 容易 被 测试 忽略 ， 在 生产 环境 中 ， 如 果 会 场 或 演讲 者 记录 链接 
到 那个 事件 记录 ， 获 取 事 件 记录 时 才 会 暴露 出 来 。 

从 数据 中 创建 实例 属性 的 名 称 时 肯定 有 可 能 会 引入 缺陷 ， 因 为 类 属性 (例如 
方法 ) 可 能 被 遮盖 ,或 者 由 于 意外 覆盖 现 有 的 实例 属性 而 丢失 数据 。 这 个 问 
题 可 能 是 Python 字典 默认 不 能 像 JavaScript 对 象 那样 访问 的 主要 原因 。 
















































































如 果 Record 类 的 行为 更 像 映射 ， 可 以 把 动态 的 _getattr_ “方法 换 成 动态 的 __getitem__ 
方法 ， 这 样 就 不 会 出 现 由 于 覆盖 或 遮盖 而 引起 的 缺陷 了 。 使 用 映射 实现 Record 类 或 许 更 符 
A Python 风格 。 可 是 ， 如 果 我 采用 那 种 方式 ， 就 发 气 不 了 动态 属性 编程 的 技巧 和 陷阱 了 。 


这 个 示例 最 后 的 代码 是 重 写 的 Load_db 函数 ， 如 示例 19-14。 























示例 19-14 schedule2.py: Load_db 国 数 
def load_db(db): 
raw_data = osconfeed.load() 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): 
record_type = collection[:-1] @ 
cls_name = record_type.capitalize() @ 
cls = globals().get(cls_name, DbRecord) © 
if inspect.isclass(cls) and issubclass(cls, DbRecord): @ 
factory = cls 日 
else: 
factory = DbRecord @ 
for record in rec_list: @ 
key = '{}.{}'.format(record_type, record['serial']) 
record[ 'serial'] = key 
db[key] = factory(**record) @ 


O 目前 ,与 schedulel.py 脚本 ( 见 示例 19-9) 中 的 Load_db 函数 一 样 。 

@ 把 record_type 变量 的 值 首 字母 变 成 大 写 〈 例 如， 把 'event' 变 成 'Event' )， 获 取 可 能 
的 类 名 。 

O 从 模块 的 全 局 作用 域 中 获取 那个 名 称 对 应 的 对 象 ， 如 果 找 不 到 对 象 ， 使 用 DbRecord。 

O 如 果 获 取 的 对 象 是 类 ， 而且 是 DbRecord 的 子 类 …… 

加 把 对 象 赋值 给 factory 变量 。 因 此 ，factory 的 值 可 能 是 DbRecord 的 任何 一 个 子 
类 ， 有 具体 的 类 取决 于 record_type 的 值 。 














动态 属性 和 特性 | 497 





© AN, E DbRecord 赋值 给 factory 变量 。 

O 这 个 for 循环 创建 key， 然 后 保存 记录 ， 这 与 之 前 一 样 ， 不 过 …… 

O- 存储 在 数据 库 中 的 对 象 由 factory 构建 ，factory 可 能 是 DbRecord 类 ， 也 可 能 是 根 
据 record_type 的 值 确定 的 某 个 子 类 。 

注意 ， 只 有 事件 类 型 的 记录 有 自 定义 的 类 一 一 Event。 不 过 ， 如 果 定 义 了 Speaker 或 Venue 

类 ，load_db 函数 构建 和 保存 记录 时 会 自动 使 用 这 两 个 类 ， 而 不 会 使 用 默认 的 DbRecord 类 。 

本 章 目 前 所 举 的 示例 是 为 了 展示 如 何 使 用 基本 的 工具 ， 如 __getattr_ 方法 、hasattr K 

数 、getattr 函数 、@property 装饰 器 和 __dict__ 属性 ， 来 实现 动态 属性 。 

特性 经 常用 于 把 公开 的 属性 变 成 使 用 读 值 方法 和 设 值 方法 管理 的 属性 ， 且 在 不 影响 客户 端 

代码 的 前 提 下 实施 业务 规则 ， 如 下 一 节 所 述 。 


19.2 使 用 特性 验证 属性 

目前 ， 我 们 只 介绍 了 如 何 使 用 @property 装饰 器 实现 只 读 特 性 。 本 市 要 创建 一 个 可 读 写 的 
特性 。 

19.2.1 LineItem 类 第 1 版 : 表示 订单 中 商品 的 类 


假设 有 个 销售 散装 有 机 食物 的 电 商 应 用 ， 客 户 可 以 按 重量 订购 坚果 、 干 果 或 杂粮 。 在 这 个 
系统 中 ， 每 个 订单 中 都 有 一 系列 商品 ， 而 每 个 商品 都 可 以 使 用 示例 19-15 中 的 类 表示 。 


示例 19-15 bulkfood vl: 最 简单 的 LineIten 类 
class LineItem: 



























































def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


这 个 类 很 精简 ， 不 过 或 许 太 简单 了 。 示 例 19-16 揭示 了 一 个 问题 。 
示例 19-16 重量 为 负 值 时 ， 人 金额 小 计 为 负 值 


>>> raisins = LineItem('Golden raisins', 10, 6.95) 
>>> raisins.subtotal() 

69.5 

>>> raisins.weight = -20 # 无 效 输入 ……: 

>>> raisins.subtotal() # 无 效 输出 ……… 

-139.0 


这 个 示例 像 玩 具 一 样 ， 但 是 没有 想象 中 的 那么 好 玩 。 下 面 是 亚马逊 早期 的 真实 故 寻 




















二 
o 














498 | 第 19 章 


我 们 发 现 顾客 买书 时 可 以 把 数量 设 为 负数 ! 然后 ， 我 们 把 金额 打 到 顾客 的 信用 卡 上 ， 
苦 苦 等 待 他 们 把 书 寄 出 ( 想 得 美 ) 。2 





Jeff Bezos 
亚马逊 创始 人 和 CEO 


这 个 问题 怎么 解决 呢 ? 我 们 可 以 修改 Lineltem 类 的 接口 ， 使 用 读 值 方法 和 设 值 方法 管理 
weight 属性 。 这 是 Java 采用 的 方式 ， 这 里 也 完全 可 行 。 


但 是 ， 如 果 能 直接 设 定 商品 的 weight 属性 ， 显 得 更 自然 。 此 外 ， 系 统 可 能 在 生产 环境 中 ， 
而 其 他 部 分 已 经 直接 访问 item.weight 了 。 此 时 ， 符 合 Python 风格 的 做 法 是 ， 把 数据 属性 
换 成 特性 。 


19.2.2 ”LineItem 类 第 2 版 : 能 验证 值 的 特性 


实现 特性 之 后 ， 我 们 可 以 使 用 读 值 方法 和 设 值 方法 ， 但 是 LineItem 类 的 接口 保持 不 变 
( 即 ， 设 置 LineIten 对 象 的 weight 属性 依然 写成 raisins.weight = 12), 


示例 19-17 列 出 可 读 写 的 weight 特性 的 代码 。 


示例 19-17 bulkfood_v2.py: 定义 了 weight 特性 的 LineItem 类 


class LineItem: 



























































def __ init__(self, description, weight, price): 
self.description = description 
self.weight = weight @ 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@property @ 
def weight(self): © 
return self. weight @ 


@Qveight.setter © 
def weight(self, value): 
if value > 0: 
self.__weight = value © 
else: 
raise ValueError('value must be > 0') @ 


O 这 里 已 经 使 用 特性 的 设 值 方法 了 ， 确 保 所 创建 实例 的 weight 属性 不 能 为 负 值 。 
© @property 装饰 读 值 方法 。 

© 实现 特性 的 方法 ， 其 名 称 都 与 公开 属性 的 名 称 一 样 
O 真正 的 值 存储 在 私有 属性 _weight H, 











I 








weight, 














注 12: 摘自 《华尔街 日 报 》 的 文章 ,“Birth of a Salesman” (2011 年 10 H 15 H, http://www.wsj.com/articles/ 
SB10001424052970203914304576627102996831200) ， 这 是 Jeff Bezos 的 原 话 。 
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O 被 装饰 的 读 值 方法 有 个 setter 属性 ， 这 个 属性 也 是 装饰 器 :这 个 装饰 器 把 读 值 方法 和 
设 值 方法 绑 定 在 一 起 。 

O 如 果 值 大 于 零 ， 设 置 私 有 属性 __weight。 

O Gill, WH ValueError 异常 。 


注意 ， 现 在 不 能 创建 重量 为 无 效 值 的 Lineltem 对 象 : 


>>> walnuts = LineItem('walnuts', 0, 10.00) 
Traceback (most recent call last): 























ValueError: value must be > 0 


现在 ,我 们 禁止 用 户 为 weight 属性 提供 负 值 或 零 。 虽 然 买 家 通常 不 能 设置 商品 的 价格 ， 但 
是 工作 人 员 可 能 犯错 ， 应 用 程序 也 可 能 有 缺陷 ， 从 而 导致 LineItenm 对 象 的 price 属性 为 负 
值 。 为 了 防止 出 现 这 种 情况 ， 我 们 也 可 以 把 price 属性 变 成 特性 ， 但 是 这 样 我 们 的 代码 中 
就 存在 一 些 重复 。 

还 记得 第 14 章 引述 Paul Graham 的 那 句 话 吗 ? 他 说 :“ 当 我 在 自己 的 程序 中 发 现 用 到 了 模 
式 ， 我 觉得 这 就 表明 某 个 地 方 出 错 了 。” 去 除 重复 的 方法 是 抽象 。 抽 象 特性 的 定义 有 两 种 
FA: 使 用 特性 工厂 函数 ， 或 者 使 用 描述 符 类 。 后 者 更 灵活 ， 第 20 章 会 全 面 讨论 。 其 实 ， 
特性 本 身 就 是 使 用 描述 符 类 实现 的 。 不 过 ， 这 里 我 们 要 继续 探讨 特性 ， 实 现 一 个 特性 工厂 
国 数 。 


但 是 ， 在 实现 特性 工厂 函数 之 前 ， 我 们 要 深入 理解 特性 。 


19.3 ”特性 全 解析 


虽然 内 置 的 property 经 常用 作 装 饰 器 ， 但 它 其 实 是 一 个 类 。 在 Python 中 ， 函 数 和 类 通常 
可 以 互 换 ， 因 为 二 者 都 是 可 调用 的 对 象 ， 而 且 没 有 实例 化 对 象 的 new 运算 符 ， 所 以 调用 构 
造 方法 与 调用 工厂 函数 没有 区 别 。 此 外 ， 只 要 能 返回 新 的 可 调用 对 象 ， 代 替 被 装饰 的 函 
数 ， 二 者 都 可 以 用 作 装 饰 器 。 
property 构造 方法 的 完整 签名 如 下 : 

property(fget=None, fset=None, fdel=None, doc=None) 
所 有 参数 都 是 可 选 的 ， 如 果 没 有 把 函数 传 给 某 个 参数 ， 那 么 得 到 的 特性 对 象 就 不 允许 执行 
相应 的 操作 。 
property 类 型 在 Python 2.2 中 引入 ， 但 是 直到 Python 2.4 FHIL @ 装饰 器 句法 ， 因 此 有 那 
么 儿 年 ， 若 想 定义 特性 ， 则 只 能 把 存 取 函数 传 给 前 两 个 参数 。 
不 使 用 装饰 器 定义 特性 的 “经 典 ” 句 法 如 示例 19-18 所 示 。 
示例 19-18 bulkfood_v2b.py: 效果 与 示例 19-17 一 样 ， 只 不 过 没 使 用 装饰 器 


class LineItem: 







































































def _ init__(self, description, weight, price): 
self.description = description 
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def 


def 


def 


self.weight = weight 
self.price = price 


subtotal(self): 
return self.weight * self.price 


get_weight(self): © 
return self.__ weight 


set_weight(self, value): @ 
if value > 0: 
self.__weight = value 
else: 
raise ValueError('value must be > 0') 


weight = property(get_weight, set_weight) © 


普通 的 读 值 方法 。 
O 普通 的 设 值 方法 。 





© 构建 property 对 象 ， 然 后 赋值 给 公开 的 类 属 ， 


某 些 情况 下 ， 
在 方法 众多 的 类 定义 体 中 使 用 装饰 器 的 话 ， 一 腿 就 能 看 出 哪些 是 读 值 方法 ， 哪 些 是 设 值 广 























E. 
这 种 经 典 形式 比 装饰 器 句法 好 ， 稍 后 讨论 的 特性 工厂 函数 就 是 一 例 。 但 是 ， 








法 ， 而 不 用 按照 惯例 ， 在 方法 名 的 前 面 加 上 get 和 set, 
类 中 的 特性 能 影响 实例 属性 的 寻找 方式 ， 而 一 开始 这 种 方式 可 能 会 让 人 觉得 意外 。 下 一 市 


会 详细 说 明 。 


19.3.1 




















特性 会 覆盖 实例 属性 





























特性 都 是 类 属性 ， 但 是 特性 管理 的 其 实 是 实例 属性 的 存 取 。 


9.9 市 说 过 ， 








如 果实 例 和 所 属 的 类 有 同名 数据 属性 ， 那 么 实例 属性 会 覆盖 〈 或 称 遮盖 ) 类 





属性 一 一 至 少 通过 那个 实例 读 取 属 性 时 是 这 样 。 示 例 19-19 阐明 了 这 一 点 。 


示例 19-19 





实例 属性 遮盖 类 的 数据 属性 


>>> class Class: # © 


>>> obj 


data = 'the class data attr' 
@property 
def prop(self): 

return 'the prop value' 


= Class() 


>>> vars(obj) #@ 


{} 


>>> obj.data # © 

"the class data attr' 

>>> obj.data = 'bar' # @ 
>>> vars(obj) # @ 
{'data': 'bar'} 

>>> obj.data # © 


"bar' 
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>>> Class.data # @ 
"the class data attr' 


O 定义 Class 类 ， 这 个 类 有 两 个 类 属性 : data 数据 属性 和 prop 特性 。 

@ vars 函数 返回 obj HY _dict_ 属性 ， 表 明 没 有 实例 属性 。 

© 读 取 obj.data， 获 取 的 是 Class.data 的 值 。 

© 为 obj.data 赋值 ， 创 建 一 个 实例 属性 。 

O 审查 实例 ， 查 看 实例 属性 。 

O 现在 读 取 obj.data， 获 取 的 是 实例 属性 的 值 。 从 obj 实例 中 读 取 属性 时 ， 实 例 属性 
data 会 遮盖 类 属性 data, 


@ Class.data 属性 的 值 完 好 无 损 。 
下 面 尝试 覆盖 obj 实例 的 prop 特性 。 接 着 前 面 的 控制 台 会 话 ， 输 入 示例 19-20 中 的 代码 。 


示例 19-20 ”实例 属性 不 会 遮盖 类 特性 (接续 示例 19-19) 
>>> Class.prop #@ 
<property object at 0x1072b7408> 
>>> obj.prop #@ 
"the prop value' 
>>> obj.prop = 'foo' # © 
Traceback (most recent call last): 

































































AttributeError: can't set attribute 
>>> obj.__dict__['prop'] = 'foo' #@ 
>>> vars(obj) # © 

{ 'data': 'bar','prop': 'foo'} 

>>> obj.prop #@ 

"the prop value' 

>>> Class.prop = 'baz' #@ 

>>> obj.prop # O 

'foo' 


O 直接 从 Class 中 读 取 prop 特性 ， 获 取 的 是 特性 对 象 本 身 ， 不 会 运行 特性 的 读 值 方法 。 
@ 读 取 obj.prop 会 执行 特性 的 读 值 方法 。 
尝试 设置 prop 实例 属性 ， 结 果 失 败 。 
O 但 是 可 以 直接 把 'prop' FFA obj.__dict__, 
O 可 以 看 到 ，obj 现在 有 两 个 实例 属性 : data 和 prop, 
© 然而 ， 读 取 obj.prop 时 仍 会 运行 特性 的 读 值 方法 。 特 性 没 被 实例 属性 遮盖 。 
O 覆盖 Class.prop 特性 ， 销 毁 特性 对 象 。 
© 现在 ，obj .prop 获取 的 是 实例 属性 。Class.prop 不 是 特性 了 ， 因 此 不 会 再 覆盖 obj .prop。 


最 后 再 举 一 个 例子 ， 为 Class 类 新 添 一 个 特性 ， 和 覆盖 实例 属性 。 示 例 19-21 接续 示例 19-20。 
示例 19-21 新 添 的 类 特性 遮盖 现 有 的 实例 属性 (接续 示例 19-20) 


>>> obj.data # @ 

"bar' 

>>> Class.data #@ 

"the class data attr' 

>>> Class.data = property(lambda self: ‘the "data" prop value') # © 
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>>> obj.data # @ 

"the "data" prop value' 
>>> del Class.data # O 
>>> obj.data # O 

‘bar' 


© obj.data 获取 的 是 实例 属性 data, 

@ Class.data 获取 的 是 类 属性 data, 

© 使 用 新 特性 覆盖 CLass.data。 

@ 现在 ，obj.data 被 Class.data 特性 遮盖 了 。 

© 删除 特性 。 

O 现在 恢复 原样 ，obj.data 获取 的 是 实例 属性 data, 

本 市 的 主要 观点 是 ，obj.attr 这 样 的 表达 式 不 会 从 obj 开始 寻找 attr， 而 是 从 obj. 
clLass_ 开始， 而 且 ， 仅 当 类 中 没有 名 为 attr 的 特性 时 ，Python 才 会 在 obj 实例 中 寻 
找 。 这 条 规则 不 仅 适用 于 特性 ， 还 适用 于 一 整 类 描述 符 一 一 徐 盖 型 描述 符 (overriding 
descriptor), 3 20 章 会 进一步 讨论 描述 符 ， 那 时 你 会 发 现 ， 特 性 其 实 是 覆盖 型 描述 符 。 
现在 回 到 特性 。 各 种 Python 代码 单元 (模块 、 函 数 、 类 和 方法 ) 都 可 以 有 文档 字符 串 。 下 
一 节 说 明 如 何 把 文档 依附 到 特性 上 。 


19.3.2 ”特性 的 文档 

控制 台中 的 heLp() 函数 或 IDE 等 工具 需要 显示 特性 的 文档 时 ,会 从 特性 的 doc 属性 中 
提取 信息 。 

如 果 使 用 经 典 调用 句法 ， 为 property 对 象 设 置 文档 字符 串 的 方法 是 传人 doc BR: 


weight = property(get_weight, set_weight, doc='weight in kilograms') 


使 用 装饰 器 创建 property 对 象 时 ， 读 值 方法 (有 @property 装饰 器 的 方法 ) 的 文档 字符 串 作 
为 一 个 整体 ， 变 成 特性 的 文档 。 图 19-2 显示 的 是 从 示例 19-22 里 的 代码 中 生成 的 帮助 界 画 
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eoo 3. Python. Š 
lontra:metaprog luciano$ python3 -i doc_property.py i 
>>> help(Foo. bar) ana 3 less i Pa 















Help on property: 





: 200 3.Python 
he bar attribute | 1ontra:metaprog luciano$ python3 -i doc_property.py | 
CEND) | >>> help(Foo.bar) eoo 3. less, PN 





Help on class Foo in module __main__: 
>>> help(Foo)f] 
class Foo(builtins.object) 

| Data descriptors defined here: 





1 

1 

1 

1 

1 __weakref__ 
1 list of weak references to the object (if defined) 
1 

1 

1 


bar 
The bar attribute 


















图 19-2; 在 Python 控制 台中 执行 heLp(Foo.bar) 和 help(Foo) 命令 时 的 截图 ; 源码 在 示例 19-22 
中 
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示例 19-22 特性 的 文档 


class Foo: 





@property 

def bar(self): 
'''The bar attribute''' 
return self.__dict__['bar'] 


@bar.setter 
def bar(self, value): 
self.__dict__['bar'] = value 


至 此 ， 我 们 介绍 了 特性 的 重要 知识 。 下 面 回 过 头 来 解决 前 面 遇 到 的 问题 : 保护 LineIten 对 
RAI weight FU price 属性 ， 只 克 许 设 为 大 于 零 的 值 ， 但 是 ， 不 用 手动 实现 两 对 几乎 一 样 的 
读 值 方法 和 设 值 方法 。 


19.4 “定义 一 个 特性 工厂 函数 
我 们 将 定义 一 个 名 为 quantity 的 特性 工厂 函数 ， 取 这 个 名 字 是 因为 ， 在 这 个 应 用 中 要 管 


里 的 属性 表示 不 能 为 负数 或 零 的 量 。 示 例 19-23 是 LineIten 类 的 简洁 版 ， 用 到 了 quantity 
特性 的 两 个 实例 : 一 个 用 于 管理 weight 属性 ， 另 一 个 用 于 管理 price 属性 。 





















































Ne 

















示例 19-23 ”bulkfood_v2prop.py: 使 用 特性 工厂 函数 quantity 
class LineItem: 
weight = quantity('weight') @ 
price = quantity('price') @ 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight © 
self.price = price 


def subtotal(self): 
return self.weight * self.price @ 


@ 使 用 工厂 函数 把 第 一 个 自 定义 的 特性 weight 定义 为 类 属性 。 

O 第 二 次 调用 ， 构 建 另 一 个 自 定义 的 特性 ，price。 

© 这 里 ， 特 性 已 经 激活 ， 确 保 不 能 把 weight 设 为 负数 或 零 。 

O 这 里 也 用 到 了 特性 ， 使 用 特性 获取 实例 中 存储 的 值 。 

前 文 说 过 ， 特 性 是 类 属性 。 构 建 各 个 quantity 特性 对 象 时 ， 要 传人 Lineltem 实例 属性 的 
名 称 ， 让 特性 管理 。 可 惜 ， 这 一 行 要 两 次 输入 单词 weight: 


weight = quantity( 'weight') 


这 里 很 难 避免 重复 输入 ， 因 为 特性 根本 不 知道 要 绑 定 哪 个 类 属性 名 。 记 住 ， 赋 值 语 名 的 右 
边 先 计算 ， 因 此 调用 quantity() Ih}, weight 类 属性 还 不 存在 。 
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如 果 想 改进 quantity 特性 ， 避 免 用 户 重 复 输入 属性 名 ， 那 么 对 元 编程 来 说 
是 个 挑战 。 第 20 章 会 介绍 一 种 变通 方法 ， 真 正 的 解决 方法 在 第 21 章 说 明 ， 
因为 要 么 得 使 用 类 装饰 器 ， 要 么 得 使 用 元 类 。 
































示例 19-24 列 出 quantity 特性 工厂 函数 的 实现 。 


示例 19-24 bulkfood_v2prop.py: quantity 特性 工厂 函数 
def quantity(storage_name): @ 


def qty_getter(instance): @ 
return instance.__dict__[storage_name] © 


def qty_setter(instance, value): @ 
if value > 0: 
instance.__dict__[storage_name] = value @ 
else: 
raise ValueError('value must be > 0') 


return property(qty_getter, qty_setter) @ 


@ storage_name 参数 确定 各 个 特性 的 数据 存储 在 哪儿 ， 对 weight 特性 来 说 ， 存 储 的 名 称 
是 'weight', 

@ qty_getter 函数 的 第 一 个 参数 可 以 命名 为 seLf， 但 是 这 么 做 很 奇怪 ， 因 为 qty_getter 
函数 不 在 类 定义 体 中 ; instance 指 代 要 把 属性 存储 其 中 的 LineIten 实例 。 

© aty_getter 引用 了 storage_name， 把 它 保 存在 这 个 函数 的 闭 包 里 ; 值 直接 从 instance. 
dict 中 获取 ， 为 的 是 跳 过 特性 ， 防 止 无 限 递 归 。 

O 定义 qty_setter 国 数 ， 第 一 个 参数 也 是 instance, 

© 值 直接 存 到 instance._dict_ 中 ,这 也 是 为 了 跳 过 特性 。 

O 构建 一 个 自 定 义 的 特性 对 象 ， 然 后 将 其 返回 。 


示例 19-24 中 值得 仔细 分 析 的 代码 是 与 storage_name 变量 相关 的 部 分 。 使 用 传统 方式 定义 
特性 时 ， 用 于 存储 值 的 属性 名 硬 编码 在 读 值 方法 和 设 值 方法 中 。 但 是 ， 这 里 的 qty_getter 
和 qty_setter 函数 是 通用 的 ， 要 依靠 storage_name 变量 判断 从 dict 中 获取 哪个 属性 ， 
或 者 设置 哪个 属性 。 每 次 调用 quantity 工厂 国 数 构建 属性 时 ， 都 要 把 storage_name 参数 
设 为 独一无二 的 值 。 

在 工厂 函数 的 最 后 一 行 ， 我 们 使 用 property 对 象 包装 qty_getter 和 qty_setter 国 数 。 需 
要 运行 这 两 个 函数 时 ， 它 们 会 从 闭 包 中 读 取 storage_name， 确 定 从 哪里 获取 属性 的 值 ， 或 
者 在 哪里 存储 属性 的 值 。 


在 示例 19-25 中 ， 我 创建 并 审查 了 一 个 Lineltem 示例 ， 说 明 存储 值 的 是 哪个 属性 。 















































TE 13: 这 段 代 码 改编 自 David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版 ) 中文 版 》 一 书 中 的 “9.21 
避免 出 现 重复 的 属性 方法 ”一 市 。 
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示例 19-25 bulkfood_v2prop.py: quantity 特性 工厂 函数 
>>> nutmeg = LineItem('Moluccan nutmeg', 8, 13.95) 
>>> nutmeg.weight, nutmeg.price @ 
(8, 13.95) 
>>> sorted(vars(nutmeg).items()) @ 
[('description', 'Moluccan nutmeg'), ('price', 13.95), ('weight', 8)] 


O 通过 特性 读 取 weight 和 price， 这 会 遮盖 同名 实例 属性 。 

O 使 用 vars 函数 审查 nutmeg 实例 ， 查 看 真正 用 于 存储 值 的 实例 属性 。 

注意 ， 工 厂 函 数 构建 的 特性 利用 了 19.3.1 节 所 述 的 行为 : weight 特性 覆盖 了 weight 实例 
属性 ， 因 此 对 self weight 或 nutmeg.weight 的 每 个 引用 都 由 特性 函数 处 理 ， 只 有 直接 存 取 
dict 属性 才能 跳 过 特性 的 处 理 逻 辑 。 

示例 19-25 中 的 代码 有 点 难 理 解 ， 不 过 够 简洁 ， 与 示例 19-17 中 使 用 装饰 器 声明 读 值 方 
法 和 设 值 方法 的 代码 行 数 一 样 ， 但 是 那里 只 定义 了 weight 特性 。 示 例 19-23 中 定义 的 
LineIten 类 没有 干扰 人 的 读 值 方法 和 设 值 方法 ， 看 起 来 舒服 多 了 。 

在 真实 的 系统 中 ， 分 散在 多 个 类 中 的 多 个 字段 可 能 要 做 同样 的 验证 ， 此 时 最 好 把 quantity 
工厂 国 数 放 在 实用 工具 模块 中 ， 以 便 重复 使 用 。 最 终 可 能 要 重 构 那个 简单 的 工厂 国 数 ， 改 
成 更 易 扩展 的 描述 符 类 ， 然 后 使 用 专门 的 子 类 执行 不 同 的 验证 。 在 第 20 章 中 ， 我 们 会 这 
么 做 。 

下 面 要 分 析 删 除 属性 的 问题 ， 以 此 结束 对 特性 的 讨论 。 


19.5 ”处 理 属性 删除 操作 


学 过 Python 教程 ， 我 们 知道 ， 对 象 的 属性 可 以 使 用 del 语句 删除 : 

del my_object.an_attribute 
EK, EH Python 编程 时 不 常 删除 属性 ， 通 过 特性 删除 属性 更 少见 。 但 是 ，Python 支持 
这 么 做 ， 我 可 以 虚构 一 个 示例 ， 演 示 这 种 处 理 方式 。 
定义 特性 时 ， 可 以 使 用 @my_propety.deleter 装饰 器 包装 一 个 方法 ， 负 责 删除 特性 管理 的 
属性 。 下 面 免 现 承 诺 ， 虚 构 一 个 示例 ， 说 明 如 何 定 义 特性 删 值 方法 ， 如 示例 19-26 所 示 。 


示例 19-26 blackknight.py: 灵感 来 自 电影 《 巨 蟒 与 圣杯 》 中 的 黑 衣 骑士 角色 
class BlackKnight: 





= 




















































































































def _ init__(self): 
self.members = ['an arm', ‘another arm', 
"a leg', ‘another leg'] 
self.phrases = ["'Tis but a scratch.", 
"It's just a flesh wound.", 
"I'm invincible!", 
"ALL right, we'll call it a draw."] 


@property 
def member(self): 
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print('next member is:') 
return self.members[0] 


@member .deleter 

def member(self): 
text = 'BLACK KNIGHT (loses {})\n-- {}' 
print(text.format(self.members.pop(@), self.phrases.pop(0))) 


blackknight.py 脚本 的 doctest 在 示例 19-27 中 。 





示例 19-27 blackknight.py: 示例 19-26 的 doctest ( 黑 衣 骑士 从 不 届 服 ) 
>>> knight = BlackKnight() 
>>> knight .member 
next member is: 
‘an arm' 
>>> del knight.member 
BLACK KNIGHT (loses an arm) 
- 'Tis but a scratch. 
>>> del knight.member 
BLACK KNIGHT (loses another arm) 
- It's just a flesh wound. 
>>> del knight.member 
BLACK KNIGHT (loses a leg) 
- I'm invincible! 
>>> del knight.member 
BLACK KNIGHT (loses another leg) 
- All right, we'll call it a draw. 


EMER Vit ae Aa FP, fdel 参数 用 于 设置 删 值 国 数 。 例 如 ， 在 Blackknight 
类 的 定义 体 中 可 以 像 下 面 这 样 创建 member 特性 : 


member = property(member_getter, fdel=member_deleter) 


如 果 不 使 用 特性 ， 还 可 以 实现 低层 特殊 的 _delattr__ 方法 处 理 删除 属性 的 操作 ， 参 见 
19.6.3 市 。 留 给 喜欢 拖延 的 读者 一 个 练习 : 虚构 一 个 类 ， 定 义 _delattr_ 方法 。 


特性 是 个 强大 的 功能 ， 不 过 有 时 更 适合 使 用 简单 的 或 底层 的 赫 代 方案 。 在 本 章 的 最 后 一 市 
中 ， 我 们 将 回顾 Python 为 动态 属性 编程 提供 的 部 分 核心 API。 


196 ”处 理 属性 的 重要 属性 和 函数 

本 章 及 本 书 前 面 的 章节 多 次 用 到 Python 为 处 理 动 态 属性 而 提供 的 内 置 函 数 和 特殊 的 方法 。 
这 些 函 数 和 方法 的 文档 散布 在 官方 文档 中 ， 因 此 我 专门 写 了 一 节 集 中 介绍 它们 。 

19.6.1 影响 属性 处 理 方式 的 特殊 属性 

后 面 几 节 中 的 很 多 图 数 和 特殊 方法 ， 其 行为 受 下 述 3 个 特殊 属性 的 影响 。 

__class__ 


对 象 所 属 类 的 引用 (BM obj.__class__ 与 type(obj) 的 作用 相同 )。Python 的 某 些 特殊 方 
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法 ， 例 如 _getattr _， 只 在 对 象 的 类 中 寻找 ， 而 不 在 实例 中 寻找 。 


__dict__ 


一 个 映射 ， 存储 对 象 或 类 的 可 写 属性 。 有 __dict_ 属性 的 对 象 ， 任 何 时 候 都 能 随意 设 
置 新 属性 。 如 果 类 有 __slots_ 属性 ， 它 的 实例 可 能 没有 __dict__ 属性 。 参 见 下 面 对 
__slots__ 属性 的 说 明 。 


__slots__ 


类 可 以 定义 这 个 这 属性 ， 限 制 实例 能 有 哪些 属性 。_stLots_“ 属性 的 值 是 一 个 字符 串 组 
成 的 元 组 ， 指 明 人 允许 有 的 属性 。 ”如果 _slots_ 中 没有 '_dict_'， 那 么 该 类 的 实例 
BRA dict 属性 ， 实 例 只 允许 有 指定 名 称 的 属性 。 


19.6.2 ”处 理 属 性 的 内 置 函数 
下 述 5 个 内 置 函数 对 对 象 的 属性 做 读 、 写 和 内 省 操作 。 
dir([object]) 


列 出 对 象 的 大 多 数 属性 。 官 方 文档 (https://docs.python.org/3/library/functions.html#dir) 
Ud, dir 函数 的 目的 是 交互 式 使 用 ， 因 此 没有 提供 完整 的 属性 列表 ， 只 列 出 一 组 “ 重 
要 的 ”属性 名 。dir 函数 能 审查 有 或 没有 _dict__ 属性 的 对 象 。dir 函数 不 会 列 出 
_dict_ 属性 本 身 ， 但 会 列 出 其 中 的 键 。dir 函数 也 不 会 列 出 类 的 几 个 特殊 属性 ， 例 如 
_mro 、_bases 和 __name 。 如 果 没 有 指定 可 选 的 object 参数 ，dir 函数 会 列 出 当 
前 作用 域 中 的 名 称 。 
getattr(object, name[, default]) 

从 object 对 象 中 获取 name 字符 串 对 应 的 属性 。 获 取 的 属性 可 能 来 自 对 象 所 属 的 类 或 超 
类 。 如 果 没 有 指定 的 属性 ，getattr 国 数 抛 出 AttributeError 异常 ， 或 者 返回 default 
参数 的 值 (如 果 设 定 了 这 个 参数 的 话 )。 


hasattr(object, name) 


如 果 object 对 象 中 存在 指定 的 属性 ， 或 者 能 以 某 种 方式 〈 例 如 继承 ) 通过 object 
对 象 获 取 指 定 的 属性 ， 返 回 True。 文 档 (https://docs.python.org/3/library/functions. 
html#hasattr) 说 道 :“ 这 个 函数 的 实现 方法 是 调用 getattr(object，name) 国 数 ， 看 看 是 
否 抛 出 AttributeError 异常 。” 
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setattr(object, name, value) 


把 object 对 象 指定 属性 的 值 设 为 value， 前 提 是 object 对 象 能 接受 那个 值 。 函数 
可 能 会 创建 一 个 新 属性 ， 或 者 覆盖 现 有 的 属性 。 











这 








注 14: Alex Martelli 指出 ，_stots_ 属性 的 值 虽然 可 以 是 一 个 列表 ， 但 是 最 好 始终 使 用 元 组 ， 因 为 处 理 
类 的 定义 体 之 后 再 修改 _slots__ 列表 没有 任何 作用 ， 所 以 使 用 可 变 的 序列 容易 让 人 误解 。 
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vars([object]) 
返回 object 对 象 的 _dict 属性 ， 如果 实例 所 属 的 类 定义 了 __slots__ 属性 ， 实 例 没 
A dict 属性 ， 那 么 vars 函数 不 能 处 理 那 个 实例 (FA, dir 函数 能 处 理 这 样 的 实 
例 )。 如 果 没 有 指定 参数 ， 那 么 vars) 函数 的 作用 与 locals() 函数 一 样 : 返回 表示 本 
地 作用 域 的 字典 。 


19.6.3 ”处 理 属性 的 特殊 方法 
在 用 户 自己 定义 的 类 中 ， 下 述 特 殊 方 法 用 于 获取 、 设 置 、 删 除 和 列 出 属性 。 
使 用 点 号 或 内 置 的 getattr, hasattr 和 setattr 函数 存 取 属性 都 会 触发 下 述 列表 中 相应 的 
特殊 方法 。 但 是 ， 直 接 通过 实例 的 dict 属性 读 写 属性 不 会 触发 这 些 特殊 方法 一 一 如 果 
和 需要， 通常 会 使 用 这 种 方式 跳 过 特殊 方法 。 
Python 文档 “Data model” 一 章 中 的 “3.3.9. Special method lookup” 一 节 (https://docs. 
python.org/3/reference/datamodel.html#special-method-lookup) 警告 说 : 
对 用 户 自 己 定义 的 类 来 说 ， 如 果 隐 式 调 用 特殊 方法 ， 仅 当 特 殊 方 法 在 对 象 所 属 的 类 
型 上 定义 ， 而 不 是 在 对 象 的 实例 字典 中 定义 时 ， 才 能 确保 调用 成 功 。 
也 就 是 说 ， 要 假定 特殊 方法 从 类 上 获取 ， 即 便 操 作 目 标 是 实例 也 是 如 此 。 因 此 ， 特 殊 方 法 
` 会 被 同名 实例 属性 遮盖 。 
在 下 述 示例 中 ,假设 有 个 名 为 Class 的 类 ，obj Class 类 的 实例 ，attr 是 obj 的 属性 。 
不 管 是 使 用 点 号 存 取 属性 ， 还 是 使 用 19.6.2 节 列 出 的 某 个 内 置 图 数 ， 都 会 触发 下 述 
特殊 方法 中 的 一 个 。 例 如 ，obj.attr 和 getattr(obj，'attr'，42) 都 会 触发 Class. 
__getattribute (obj，'attr') 方法 。 













































































__delattr__(self, name) 


只 要 使 用 det 语句 删除 属性 ， 就 会 调用 这 个 方法 。 例 如 ，deL obj.attr 语句 触发 
Class.__delattr__(obj, 'attr') 方法 。 





__dir__(self) 
把 对 象 传 给 dir 函数 时 调用 ， 列 出 属性 。 例 如 ，dir(obj) 触发 Class.__dir__(obj) 方法 。 
__getattr__(self, name) 
仅 当 获取 指定 的 属性 失败 ， 搜 索 过 obj, Class 和 超 类 之 后 调用 。 表 达 式 obj.no_such_ 
attr, getattr(obj, 'no_such_attr') 和 hasattr(obj, 'no_such_attr') 可 能 会 触发 


Class.__getattr__(obj, 'no_such_attr') 方法 ， 但 是 ， 仅 当 在 obj、CLass 和 超 类 中 找 
不 到 指定 的 属性 时 才 会 触发 。 


__getattribute (self, name) 
尝试 获取 指定 的 属性 时 总 会 调用 这 个 方法 不过， 寻找 的 属性 是 特殊 属性 或 特殊 方法 
时 除外 。 点 号 与 getattr 和 hasattr 内 置 函数 会 触发 这 个 方法 。 调 用 __getattribute__ 
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方法 且 抛 出 AttributeError 异常 时 ， 才 会 调用 _getattr 方法。 为 了 在 获取 obj 
实例 的 属性 时 不 导致 无 限 递 归 ，__getattribute_ 方法 的 实现 要 使 用 super().__ 


getattribute (obj, name), 








__setattr__(self, name, value) 
尝试 设置 指定 的 属性 时 总 会 调用 这 个 方法 。 点 号 和 setattr 内 置 函数 会 触发 这 个 方法 。 
例如 ，obj.attr = 42 和 setattr(obj，'attr'，42) 都 会 触发 Class.__setattr__(obj, 
‘attr’ , 42) 方法 。 





其 实 ， 特 殊 方 法 _getattribute _ 和 __setattr_ 不管 怎样 都 会 调用 ， 几 
平 会 影响 每 一 次 属性 存 取 ， 因 此 比 _getattr_ “方法 (只 处 理 不 存在 的 属性 
名 ) 更 难 正确 使 用 。 与 定义 这 些 特殊 方法 相 比 ， 使 用 特性 或 描述 符 相 对 不 易 
出 错 。 











我 们 对 特性 、 特 殊 方法 和 其 他 动态 属性 编程 技术 的 讨论 到 此 结束 。 


19.7 本 章 小 结 


本 章 的 话题 是 动态 属性 编程 。 我 们 首先 举 了 几 个 实例 ， 定 义 了 几 个 简单 的 类 ， 简 化 处 理 
JSON 数据 源 的 方式 。 第 一 个 示例 是 FrozenJSON 类 ， 把 典 套 的 字典 和 列表 转换 成 幅 套 的 
FrozenJSON 实例 和 实例 列表 。FrozenJSON 类 的 代码 展示 了 如 何 使 用 特殊 的 __getattr__ Fy 
法 在 读 取 属 性 时 即时 转换 数据 结构 。Frozen]JSoN 类 的 最 后 一 版 展示 了 如 何 使 用 __new_ 构 
造 方法 把 一 个 类 转换 成 一 个 灵活 的 对 象 工厂 函数 ， 不 受 实例 本 身 的 限制 。 


然后 ， 我 们 把 ISON 源 转 换 成 一 个 shelve.Shelf 数据 库 ， 把 序列 化 的 Record 实例 存在 里 
fl, Æ 1 版 Record 类 只 有 几 行 代码 ， 介 绍 了 “集束 ”惯用 法 : 使 用 传 给 _init “方法 的 
关键 字 参 数 ， 调 用 self.__dict__.update(**kwargs) 构建 任意 属性 。 这 个 示例 的 第 2 版 对 
Record 类 做 了 扩展 : 一 个 是 DbRecord 类 ， 集 成 数据 库 操 作 ， 男 一 个 是 Event 类 ， 通 过 特性 
自动 获取 所 链接 的 记录 。 
接着 ， 本 章 讨 论 了 特性 。 我 们 定义 的 LtneItem 类 中 有 个 特性 ， 确 保 weight 属性 的 值 不 能 
是 对 业务 没有 意义 的 负数 或 零 。 然 后 ， 我 们 深入 说 明了 特性 的 句法 和 语义 。 随 后 ， 创 建 了 
一 个 特性 工厂 函数 ， 在 不 定义 多 个 读 值 方法 和 设 值 方法 的 前 提 下 ， 对 weight 和 price 属性 
做 相同 的 验证 。 那 个 特性 工厂 函数 用 到 了 几 个 精妙 的 概念 ， 例 如 闭 包 和 被 特性 覆盖 的 实例 
属性 ， 提 供 了 优雅 的 通用 方案 ， 代 码 行 数 与 用 手工 编码 的 特性 来 验证 单个 属性 的 一 样 多 。 
最 后 ， 我 们 简要 说 明了 如 何 使 用 特性 处 理 删 除 属性 的 操作 ， 随 后 概览 了 Python 核心 语言 为 
支持 属性 元 编程 而 提供 的 重要 的 特殊 属性 、 内 置 函 数 和 特殊 方法 。 


19.8 ”延伸 阅读 


属性 处 理 和 内 置 的 内 省 函数 的 官方 文档 在 Python 标准 库 文档 的 第 2 章 中 ， 题 为 “Built- 
in Functions”(https://docs.python.org/3/library/functions.html)。 相 关 的 特殊 方法 和 特殊 
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的 __slots__ 属性 在 Python 语言 参考 手册 中 的 “3.3.2. Customizing attribute access” — “i 
(https://docs.python.org/3/reference/datamodel.html#customizing-attribute-access) 里 说 明 。 调 
用 特殊 方法 会 跳 过 实例 的 语意 原因 在 “3.3.9. Special method lookup” 一 节 (https://docs. 
python.org/3/reference/datamodel.html#special-method-lookup) 中 说 明 。 在 Python 标准 库 文 
档 的 第 4 章 “Built-in Types” 里 ,“4.13. Special Attributes” 一 节 (https://docs.python.org/3/ 


library/stdtypes.html#special-attributes) 说 明了 _class__ #1__dict__ 属性 。 


David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版 ) 中文 版 》 一 书 中 有 几 个 诀 
窍 涉及 本 章 的 话题 ， 不 过 我 要 重点 提出 三 个 :“8.8 在 子 类 中 扩展 属性 ”， 解 决 了 在 继承 自 
超 类 的 特性 中 履 盖 方法 这 个 环 手 问题 ; “8.15 委托 属性 的 访问 ”， 实 现 了 一 个 代理 类 ， 展 示 
了 本 书 19.6.3 节 所 列 的 大 多 数 特殊 方法 ， 还 有 出 色 的 “9.21 避免 出 现 重复 的 属性 方法 ”一 
节 ， 示 例 19-24 中 定义 的 特性 工厂 函数 就 以 那 一 节 为 基础 。 


Alex Martelli 写 的 《Python 技术 手册 (第 2 版 )》 只 涵盖 了 Python 2.5， 不 过 基础 知识 也 适 
用 于 Python 3。 他 和 写 书 的 风格 严谨 而 客观 ， 讲 到 特性 时 ， 只 用 了 3 页 ， 但 这 是 由 于 那 本 书 
采用 了 符合 逻辑 的 行文 方式 : 之 前 的 15 页 已 经 对 Python 的 类 做 了 详尽 的 说 明 ， 包 括 描述 
符 ， 而 特性 就 是 使 用 描述 符 实 现 的 。 因 此 讲 到 特性 时 ， 他 可 以 在 3 页 的 篇 幅 中 发 表 很 多 见 
解 ， 例 如 本 章 开篇 引用 的 那 句 话 。 


本 章 开 头 引 用 的 统一 访问 原则 定义 出 自 Bertrand Meyer 的 优秀 著作 Object-Oriented Software 
Construction, Second Edition (Prentice-Hall 出 版 社 )。 这 本 书 超过 1250 页 ， 我 承认 我 没有 
读 完 ， 不 过 前 六 章 对 面向 对 象 分 析 和 设计 相关 概念 的 介绍 是 我 见 过 最 好 的 之 一 ， 第 11 章 
介绍 了 契约 式 设计 (Meyer 发 明了 这 种 设计 方法 ， 创 造 了 这 个 术语 )， 第 35 章 阐述 了 他 
对 重要 的 面向 对 象 语言 的 评价 ， 包 括 Simula, Smalltalk, CLOS (Lisp 的 面向 对 象 扩展 )、 
Objective-C, C++ 和 Java， 还 对 其 他 语言 做 了 简要 评述 。 他 还 发 明了 伪 伪 代码 (pseudo- 
pseudocode), 直到 那 本 书 的 最 后 一 页 他 才 披 露 , 全 书 用 于 编写 伪 代 码 的 句法 其 实 出 自 Eiffel 
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x OUR 

站 在 美学 的 角度 来 看 ，Meyer 提出 的 统一 访问 原则 (Unifrom Access Principle, % xk fj 
称 的 人 有 时 称 之 为 UAP) 很 吸引 人 。 作 为 使 用 API 的 程序 员 ， 我 不 应 该 关心 coconut 
price 只 是 获取 数据 属性 还 是 执行 计算 。 但 是 ， 作 为 消费 者 和 公民 ， 我 应 该 关心 : 在 电 
子 商务 发 达 的 今天 ，coconut.price 的 值 通 常 取决 于 这 个 问题 由 谁 提 出 ， 因 此 它 绝 不 仅 
仅 是 个 数据 属性 。 其 实 ， 如 果 查 询 来 自 网 店 外 部 (例如 比价 引擎 )， 价 格 通常 会 低 一 些 。 
显然 ， 这 对 喜欢 浏览 特定 网 店 的 忠实 消费 者 来 说 ， 利 益 受 到 了 损害 。 但 是 我 不 同意 。 
前 一 段 离 题 了 ， 可 是 却 提出 了 与 编程 有 关 的 问题 : 虽然 统一 访问 原则 在 理想 的 世界 中 
完全 合理 ， 但 在 现实 中 ，API 的 用 户 可 能 需要 知道 读 取 coconut.price 是 否 太 耗资 源 
或 时 间 。Ward Cunningham 的 维基 (http://c2.com/cgi/wiki?WelcomeVisitors) 对 软件 工 
程 方面 的 话题 有 很 多 独到 的 见解 ， 他 对 统一 访问 原则 的 功 过 也 做 了 富有 洞察 力 的 论述 
(http://c2.com/cgi/wiki?UniformAccessPrinciple) 。 
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在 面向 对 象 编程 语言 中 ， 是 否 遵 守 统 一 访问 原则 通常 体现 在 句法 上 : 完 竟 是 读 取 公 开 
的 数据 属性 ， 还 是 调用 读 值 方法 和 设 值 方法 。 


Smalltalk 和 Ruby 使 用 简单 而 优雅 的 方式 解决 这 个 问题 : 根本 不 支持 公开 的 数据 属性 。 
在 这 两 门 语言 中 ， 所 有 实例 属性 都 是 私有 的 ， 因 此 必须 通过 方法 来 存 取 。 不 过 ， 这 两 
门 语言 的 向 法 把 这 个 过 程 变 得 党 不 费力 : 在 Ruby 中 ，coconut.price 会 调用 读 值 方法 
price; 在 Smalltalk 中 ， 只 需 使 用 coconut price, 


Java 采用 的 是 另 一 种 方式 ， 让 程序 员 在 四 种 访问 级 别 修饰 符 中 选择 。' 不 过 ， 普 通 大 
众 并 不 认同 Java 设计 者 制定 的 这 种 句法 。Java 世界 的 人 都 认为 ， 属 性 应 该 是 私有 的 ， 
但 是 每 一 次 都 要 写 出 private， 因 为 这 不 是 默认 的 访问 级 别 。 如 果 所 有 属性 都 是 私有 
的 ， 那 么 从 类 外 部 访问 属性 就 必须 使 用 存 取 方法 。jJava IDE 提供 了 自动 生成 存 取 方法 
的 快捷 方式 。 但 是 ， 六 个 月 后 不 得 不 阅读 代码 时 ，IDE 没有 多 大 帮助 。 我 们 要 在 众多 
什么 也 没 做 的 存 取 方法 中 找 出 所 需 的 那 一 个 ， 添 加 实现 某 些 业务 逻辑 所 需 的 值 。 


Alex Martelli 把 存 取 方 法 称 为 “愚蠢 的 惯用 法 ”， 这 道 出 了 Python 社区 中 大 多 数 人 的 心 
声 。 他 举 了 下 面 两 个 例子 ， 外 观 差异 很 大 ， 但 是 作用 相同 : “ 


someInstance.widgetCounter += 1 


# 而 不 用 …… 


someInstance.setWidgetCounter(someInstance.getWidgetCounter() + 1) 


设计 API 时 ， 我 有 时 会 想 ， 能 否 把 没有 参数 (除了 seLf)、 返 回 一 个 值 (除了 None) 
Hng ( 即 没有 副作用 ) 替换 成 只 读 特 性 。 在 本 章 中 ，LineItem.subtotal 方法 (如 
示例 19-23 所 示 ) 就 可 以 替换 成 只 读 特 性 。 当 然 ， 用 于 修改 对 象 的 方法 〈 如 my_List. 
clear()) RAWA), WHOA ARRAY BEL, AA BGP my_list. 
clear 就 会 删除 列表 中 的 内 容 。 


在 GPIO 库 Pingo.io (http://www.pingo.io/docs/, 3.4.2 节 提 过 ) 中 ， 多 数 用 户 级 别 的 
API 都 基于 特性 实现 。 例 如 ， 为 了 读 取 模拟 针脚 的 当前 值 ， 用 户 要 编写 pin.value; 为 
了 设置 数字 针脚 的 模式 ， 要 写成 pin.mode = OUT。 在 背后 ， 读 取 模 拟 针脚 的 值 或 设 
置 数字 针脚 的 模式 可 能 涉及 大 量 代码 ， 这 取决 于 具体 的 主板 驱动 。 我 们 决定 在 Pingo 
中 使 用 特性 ， 是 因为 我 们 想 让 API 用 起 来 舒服 ， 即 便 是 在 iPython Notebook (http:// 
ipython.org/notebook.html) 等 交互 环境 中 也 是 如 此 ， 而 且 我 们 觉得 pin.mode = OUT 看 
起 来 和 输入 起 来 都 比 pin.set_mode(OUT) 容易 。 

我 觉得 Smalltalk 和 Ruby 的 处 理 方 式 很 简洁 ， 但 也 认为 Python 的 处 理 方 式 比 Java 更 
合理 。 一 开始 ， 我 们 可 以 从 简单 的 方式 入 手 ， 把 数据 成 员 定 义 为 公开 的 属性 ， 因 为 我 
们 知道 这 些 属性 可 以 使 用 特性 (或 下 一 章 讨 论 的 描述 符 ) 来 包装 。 











注 15: 包括 没有 名 称 的 默认 级 别 ，Java 教程 (http://docs.oracle.com/javase/tutorial/java/javaOO/accesscontrol. 
html) 称 其 为 “ 包 级 私有 ”。 
i£ 16: «Python 技术 手册 (第 2 版 )》 第 101 页。 
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_new “方法 比 new 运算 符 好 


在 Python 中 还 有 一 处 体现 了 统一 访问 原则 (或 者 它 的 变 体 ) : 函数 调用 和 对 象 实例 化 
使 用 相同 的 句法 一 一 my_obj = foo(), HP foo 是 类 或 其 他 可 调用 的 对 象 。 


受 C++ 向 法 影响 的 其 他 语言 提供 了 new 运算 符 ， 致 使 实例 化 不 像 是 调用 。 大 多 数 时 
候 ，API 的 用 户 不 关心 foo 是 函数 还 是 类 。 直 到 最 近 ， 我 才 意 识 到 ，property 是 个 函 
数 。 在 常规 的 用 法 中 ， 这 没什么 区 别 。 


把 构造 方法 替换 成 工厂 方法 有 很 多 充足 的 理由 。 ”一 个 重要 的 原因 是 ， 通 过 返回 之 前 
构建 的 实例 ， 限 制 实例 的 数量 (体现 了 单 例 模式 )。 有 个 相关 的 功能 是 ， 绥 存 构 建 过 程 
开销 大 的 对 象 。 此 外 ， 有 时 便于 根据 指定 的 参数 返回 不 同类 型 的 对 象 。 


定义 构造 方法 较为 简单 ， 提 供 工厂 方法 虽然 增加 了 灵活 性 ， 但 是 要 编写 更 多 的 代码 。 
在 有 new 运算 符 的 语言 中 ，API 的 设计 者 必须 提前 决定 : 完 竟 是 坚持 使 用 简单 的 构 
造 方法 ， 还 是 投入 工厂 方法 的 怀抱 。 如 果 一 开始 选择 错 了 ， 那 么 修正 的 代价 可 能 很 
大 一 一 这 一 切 都 因为 new 是 运算 符 。 


有 时 可 能 更 适合 走 另 一 条 路 ， 把 简单 的 函数 换 成 类 。 


在 Python 中 ,很 多 情况 下 类 和 未 数 可 以 互 换 。 这 不 仅 是 因为 Python 没有 new 运算 符 ， 
还 因为 有 特殊 的 _new 方法 ， 可 以 把 类 变 成 工厂 方法 ， 生 成 不 同类 型 的 对 象 (如 
19.1.3 节 所 述 ) ， 或 者 返回 事先 构建 好 的 实例 ， 而 不 是 每 次 部 创建 一 个 新 实例 。 


如 果 “PEP 8 一 Style Guide for Python Code” (https://www.python.org/dev/peps/pep-0008/ 
#class-names) 不 推荐 类 名 使 用 驼峰 式 (CamelCase), MA BKSAHOMBALDT HE 
用 。 不 过 ， 标 准 库 中 有 很 多 类 的 名 称 是 小 写 的 《例如 property, str, defaultdict, 
等 等 )。 因 此 ， 使 用 小 写 的 类 名 可 能 是 个 特色 ， 而 不 是 缺陷 。 但 是 ， 不 管 怎么 看 ， 
Python 标准 库 在 类 名 大 小 写 上 的 不 一 致 会 导致 可 用 性 问题 。 


虽然 调用 函数 与 调用 类 没有 区 别 ， 但 是 最 好 知道 哪个 是 哪个 ， 因 为 类 还 有 一 个 功能 : 
子 类 化 。 因 此 ， 我 编写 的 每 个 类 都 使 用 驼峰 式 名 称 ， 而 且 硕 望 Python 标准 库 中 的 
所 有 类 也 使 用 这 一 约定 。 我 在 盯 着 你 呢 ，collections.OrderedDict 和 collections. 
defaultdict, 




















注 17: 我 将 要 提 到 的 原因 出 自 Jonathan Amsterdam 发 布 在 Dr. Dobbs Journal 中 的 一 篇 文章 ， 题 为 “Java’s 

















new Considered Harmful” (http://www.drdobbs.com/javas-new-considered-harmful/184405016) ,以 及 
Joshua Bloch 写 的 获奖 图 书 Effective Java 中 的 第 一 条 ,“ 考 虑 用 静态 工厂 方法 代替 构造 国 数 "。 
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属性 摘 述 符 





学 会 描述 符 之 后 ， 不 仅 有 更 多 的 工具 集 可 用 ， 还 会 对 Python 的 运作 方式 有 更 深入 的 
PEE, Fy RAE Python 设计 的 优雅 。， 





Raymond Hettinger 
Python 核心 开发 者 和 专家 


描述 符 是 对 多 个 属性 运用 相同 存 取 逻辑 的 一 种 方式 。 例 如 ，Dijango ORM 和 SQL Alchemy 
等 ORM 中 的 字段 类 型 是 描述 符 ， 把 数据 库 记 录 中 字段 里 的 数据 与 Python 对 象 的 属性 对 应 
起 来 。 

描述 符 是 实现 了 特定 协议 的 类 ， 这 个 协议 包括 _get 、_set 和 delete 方法 。 
property 类 实现 了 完整 的 描述 符 协议 。 通 常 ， 可 以 只 实现 部 分 协议 。 其 实 ， 我 们 在 真实 的 代 
码 中 见 到 的 大 多 数 描述 符 只 实现 了 get #l_set_ 方法， 还 有 很 多 只 实现 了 其 中 的 一 个 。 
描述 符 是 Python 的 独 有 特征 ， 不 仅 在 应 用 层 中 使 用 ， 在 语言 的 基础 设施 中 也 有 用 到 。 除 了 
特性 之 外 ， 使 用 描述 符 的 Python 功能 还 有 方法 及 classmethod 和 staticmethod 装饰 器 。 理 
解 描 述 符 是 精通 Python 的 关键 。 本 章 的 话题 就 是 描述 符 。 


20.1 描述 符 示 例 : 验证 属性 


如 19.4 市 所 示 ， 特 性 工厂 函数 借助 函数 式 编程 模式 避免 重复 编写 读 值 方法 和 设 值 方法 。 特 
性 工厂 函数 是 高 阶 函 数 ， 在 闭 包 中 存储 storage_name 等 设置 ， 由 参数 决定 创建 哪些 存 取 函 
数 ， 再 使 用 存 取 函数 构建 一 个 特性 实例 。 解 决 这 种 问题 的 面向 对 象 方式 是 描述 符 类 。 
















































































注 1: 摘自 Raymond Hettinger 写 的 “Descriptor HowTo Guide” (https://docs.python.org/3/howto/descriptor.html ) 。 
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这 里 继续 19.4 节 的 LineTten 系列 示例 ， 把 quantity 特性 工厂 函数 重 构成 Quantity 描述 符 类 。 


20.1.1 LineItem 类 第 3 版 : 一 个 简单 的 描述 符 


SHY _get_, _set_ W _delete 方法 的 类 是 描述 符 。 描 述 符 的 用 法 是 ， 创 建 一 个 实 
例 ， 作 为 另 一 个 类 的 类 属性 。 


我 们 将 定义 一 个 Quantity 描述 符 ，LineIten 类 会 用 到 两 个 Quantity 实例 : 一 个 用 于 管理 
weight 属性 ， 另 一 个 用 于 管理 price 属性 。 示 意图 有 助 于 理解 ， 如 图 20-1 所 示 。 


di 
i 
«descriptor» ; Lineltem 
Quantit ht description 
weight {storage} 
init price | price {storage 
en 
subtotal 


20-1; LineItem 类 的 UML 示意 图 ， 用 到 了 名 为 Quantity 的 描述 符 类 。UML 示意 图 中 带 下 划 线 
的 属性 是 类 属性 。 注 意 ，weight 和 price 是 依附 在 LineItem 类 上 的 Quantity 类 的 实例 ， 
不 过 LineIten 实例 也 有 自己 的 weight 和 price 属性 ， 存 储 着 相应 的 值 









































































注意 ， 在 图 20-1 中 ,“weight” 这 个 词 出 现 了 两 次 ， 因 为 其 实 有 两 个 不 同 的 属性 都 叫 
weight: 一 个 是 LineItem 的 类 属性 ， 另 一 个 是 各 个 LineIten 对 象 的 实例 属性 。price 也 是 
如 此 。 
从 现在 开始 ， 我 会 使 用 下 述 定义 。 
描述 符 类 
实现 描述 符 协 议 的 类 。 在 图 20-1 F, Æ Quantity 类 。 
托管 类 
把 描述 符 实例 声明 为 类 属性 的 类 
描述 符 实 例 
描述 符 类 的 各 个 实例 ， 声 明 为 托管 类 的 类 属性 。 在 图 20-1 中 ， 各 个 描述 符 实 例 使 用 
箭头 和 带 下 划 线 的 名 称 表示 (在 UML, FRIAR), SREB A 
LineIten 类 包含 描述 符 实例 。 
托管 实例 
托管 类 的 实例 。 在 这 个 示例 中 ，LineIten 实例 是 托管 实例 〈 没 在 类 图 中 展示 )。 





























20-1 中 的 LineItem 类 。 
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储存 属性 
托管 实例 中 存储 自身 托管 属性 的 属性 。 在 图 20-1 中 ，LineIten 实例 的 weight 和 price 
属性 是 储存 属性 。 这 种 属性 与 描述 符 实 例 不 同 ， 描 述 符 实 例 都 是 类 属性 。 
托管 属性 
托管 类 中 由 描述 符 实 例 处 理 的 公开 属性 ， 值 存储 在 储存 属性 中 。 也 就 是 说 ， 描 述 符 实例 
和 储存 属性 为 托管 属性 建立 了 基础 。 
Quantity 实例 是 LineIten 类 的 类 属性 ， 这 一 点 一 定 要 理解 。 图 20-2 中 的 机 器 和 小 怪兽 强 
调 了 这 个 关键 点 。 





















































description 


weight {storage} 
price {storage 


subtotal 








es ! 
rot NGN 


20-2: $4 MGN (Mills & Gizmos Notation， 机 器 和 小 怪兽 图 示 法 ) 注解 的 UML 类 图 : 类 是 机 器 ， 
用 于 生产 小 怪兽 (实例 )。Quantity 机 器 生产 了 两 个 圆 头 的 小 怪兽 , 依附 到 Lineltem 机 器 上 ， 
即 weight 和 price, LineItem 机 器 生产 方 头 的 小 怪兽 ， 有 自己 的 weight 和 price 属性 ， 存 
储 着 相应 的 值 





Milis k 
Gizmos 
Notation 

















机 器 和 小 怪兽 图 示 法 介绍 

我 以 前 经 常 使 用 UML 解说 描述 符 ， 但 是 后 来 发 现 UML 无 法 很 好 地 展现 类 与 实例 之 
间 的 关系 ， 例 如 托管 类 与 描述 符 实 例 之 间 的 关系 。 所 以 ， 我 自己 发 明了 一 门 “ 语 
言 ” 一 一 机 器 和 小 怪兽 图 示 法 (Mills & Gizmos Notation，MGN) ， 使 用 它 注 解 UML 
示意 图 。 

MGN 的 目的 是 明确 区 分 类 和 实例 。 如 图 20-3 所 示 。 在 MGN F, XBA “PWR, A 
是 一 种 复杂 的 设备 ， 用 于 生产 小 怪兽 。 类 (机 器 ) 都 是 有 操控 杆 和 刻度 盘 的 设备 。 小 
怪兽 是 实例 ， 外 观 更 简洁 。 小 怪兽 与 生产 它 的 机 器 具有 相同 的 颜色 。 

















F 





注 2: Æ UML 类 图 中 ， 类 和 实例 都 画 成 方 框 。 虽 然 视觉 上 有 区 别 ， 但 是 因为 3 
发 者 可 能 认 不 出 。 





图 中 很 少 














实例 ， 所 以 开 





bi 
EE 
= 
将 
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Gizmos 
Notation 
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20-3: MGN 简 图 表示 ，LineItem 类 生产 了 三 个 实例 ，Quantity 类 生产 了 两 个 实例 。 
其 中 一 个 Quantity 实例 从 一 个 LineIten 实例 中 获取 存储 的 值 


在 这 个 示例 中 ， 我 把 Lineltem 实例 画 成 表格 中 的 行 ， 各 有 三 个 单元 格 ， 表 示 三 个 属性 
(description, weight 和 price), Quantity 实例 是 描述 符 ， 因 此 有 个 放大 镜 ， 用 于 获 
取 值 (_get )， 以 及 一 个 手 抓 ， 用 于 设置 值 (_set )。 讲 到 元 类 时 ， 你 会 感谢 我 
5 T XRG, 








先 把 涂鸦 放 在 一 边 ， 来 看 代码 : 示例 20-1 Æ Quantity 描述 符 类 和 新 版 LitneItem 类 ， 用 到 
两 个 Quantity 实例 。 


示例 20-1 bulkfood_v3.py: 使 用 Quantity 描述 符 管理 LineIten 的 属性 
class Quantity: @ 





def _ init__(self, storage_name): 
self.storage_name = storage_name @ 


def _ set (self, instance, value): © 
if value > 0: 


instance.__dict__[self.storage_name] = value @ 
else: 


raise ValueError('value must be > 0') 


class LineItem: 
weight = Quantity('weight') O 
price = Quantity('price') @ 


def _init (self, description, weight, price): @ 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


O 描述 符 基于 协议 实现 ， 无 需 创建 子 类 。 
@ Quantity 实例 有 个 storage_name 属性 ， 这 是 托管 实例 中 存储 值 的 属性 的 名 称 。 









































O 尝试 为 托管 属性 赋值 时 ， 会 调用 __set_ 方 法。 这 里 ，self 是 描述 符 实 例 ( 即 
LineItem.weight 或 LineItem.price)，instance 是 托管 实例 (LineItem 实例 )，value 是 
要 设 定 的 值 。 

@ 这 里 ， ee dict 属性 ， 如 果 使 用 内 置 的 setattr 函数 ， 会 再 
次 触发 _set “方法 ， rane IA. 

加 第 a 实例 绑 定 给 weight 属性 。 

© en price 属性 。 

O 类 定义 体 中 余下 的 代码 与 bulkfood_vl.py 脚本 ( 见 示 例 19-15) 中 的 代码 一 样 简洁 。 


在 示例 20-1 中 ， 各 个 托管 属性 的 名 称 与 储存 属性 一 样 ， 而 且 读 值 方法 不 需要 特殊 的 逻辑 ， 
所 以 Quantity 类 不 需要 定义 Iet 方法。 
示例 20-1 中 的 代码 会 像 预期 那样 运作 ， 禁 止 以 0 美元 销售 松露 : ” 


>>> truffle = LineItem('White truffle', 100, 0) 
Traceback (most recent call last): 












































ValueError: value must be > 0 
编写 _set “方法 时 ， 要 记 住 self 和 instance 参数 的 意思 :self 是 描述 符 实 


例 ，instance 是 托管 实例 。 管 理 实例 属性 的 描述 符 应 该 把 值 存 储 在 托管 实例 
中 。 因 此 ，Python 才 为 描述 符 中 的 那个 方法 提供 了 instance 参数 。 























你 可 能 想 把 各 个 托管 属性 的 值 直接 存在 描述 符 实例 中 ， 但 是 这 种 做 法 是 错误 的 。 也 就 是 
说 ， 在 ”set ”方法 中 ， 应 该 像 下 面 这 样 写 : 


instance.__dict__[self.storage_name] = value 
而 不 能 试图 使 用 下 面 这 种 错误 的 写法 : 
self.__dict__[self.storage_name] = value 


为 了 理解 错误 的 原因 ， 可 以 想 想 _set “方法 前 两 个 参数 (self 和 instance) 的 意思 。 
这 里 ，self 是 描述 符 实例 ， 它 其 实 是 托管 类 的 类 属性 。 同 一 时 刻 ， 内 存 中 可 能 有 几 千 个 
LineItem 实例 ， 不 过 只 会 有 两 个 描述 符 实 例 : LineItem.weight 和 LineItem.price。 因 此 ， 
存储 在 描述 符 实例 中 的 数据 ， 其 实 会 变 成 LineIten 类 的 类 属性 ， 从 而 由 全 部 LineIten 实 
例 共 享 。 


示例 20-1 有 个 缺点 ， 在 托管 类 的 定义 体 中 实例 化 描述 符 时 要 重复 输入 属性 的 名 称 。 如 果 
LineIten 类 能 像 下 面 这 样 声 明 就 好 了 : 
class LineItem: 


weight = Quantity() 
price = Quantity() 


















































# 余下 的 方法 与 之 前 一 样 














注 3: 一 人 磅 白松 露 价值 几 千 美元 。 留 个 练习 给 有 进取 心 的 读者 : 不 准 以 0.01 美元 的 价格 销售 松露 。 我 认识 
一 个 人 , 他 以 18 美元 买 到 了 价值 1800 美元 的 统计 学 百科 全 书 , 因为 那个 网 店 (不 是 亚马逊 ) 有 漏洞 。 
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可 问题 是 ， 正 如 第 8 章 说 过 的 ， 赋 值 语 名 右手 边 的 表达 式 先 执行 ， 而 此 时 变量 还 不 存在 。 
Quantity() 表达 式 计算 的 结果 是 创建 描述 符 实例 ， 而 此 时 Quantity 类 中 的 代码 无 法 猜 出 要 
把 描述 符 绑 定 给 哪个 变量 〈 例 如 weight BK price). 

因此 ， 示 例 20-1 必须 明确 指明 各 个 Quantity 实例 的 名 称 。 这 样 不 仅 麻 烦 ， 还 很 危险 : 如 
果 程 序 员 直接 复制 粘贴 代码 而 忘 了 编辑 名 称 ， 比 如 写成 price = Quantity('weight'), JB 
么 程序 的 行为 会 大 错 特 错 ， 设 置 price 的 值 时 会 覆盖 weight 的 值 。 

下 一 市 会 介绍 一 个 不 太 优 雅 但 是 可 行 的 方案 ， 解决 这 个 重复 输入 名 称 的 问题 。 更 好 的 解决 
方案 是 使 用 类 装饰 器 或 元 类 ， 等 到 第 21 章 再 介绍 。 


20.1.2 ”LineItem 类 第 4 版 : 自动 获取 储存 属性 的 名 称 


为 了 避免 在 描述 符 声明 语句 中 重复 输入 属性 名 ， 我 们 将 为 每 个 Quantity 实例 的 storage_ 
name 属性 生成 一 个 独一无二 的 字符 串 。 图 20-4 是 更 新 后 的 Quantity 和 LineItem 类 的 
UML 类 图 。 


«descriptor» 
_init _ 
get 
Set __ 







































































description 
_Quantity#0 {storage} 
price | Quantity#1 {storage 


_init _ 
Subtotal 


l 获取 和 设置 托管 属性 i 

































20-4; 示例 20-2 的 UML ŽS., MÆ, Quantity Bt _get_ Ask, 也 有 _set_ 方法 ; LineItem 
实例 中 储存 属性 的 名 称 是 生成 的 ，_Quantity#9 和 _Quantity#1 


为 了 生成 storage_name, FKL '_Quantity#' 为 前 缀 ， 然 后 在 后 面 拼接 一 个 整数 : 
Quantity.__counter 类 属性 的 当前 值 ， 每 次 把 一 个 新 的 Quantity 描述 符 实例 依附 到 类 上 ， 
都 会 递增 这 个 值 。 在 前 组 中 使 用 井 号 能 避免 storage_name 与 用 户 使 用 点 号 创建 的 属性 冲 
突 ， 因 为 nutmeg._Quantity#g 是 无 效 的 Python 名 法。 但是， 内 置 的 getattr 和 setattr 
国 数 可 以 使 用 这 种 “无 效 的 ”标识 符 获 取 和 设置 属性 ， 此 外 也 可 以 直接 处 理 实例 属性 
dict, I] 20-2 是 新 的 实现 。 
































示例 20-2 bulkfood_v4.py: 每 个 Quantity 描述 符 都 有 独一无二 的 storage_name 
class Quantity: 
_ counter =0 @ 


def _ init__(self): 
cls = self._class_ @ 
prefix = cls.__name__ 
index = cls.__counter 
self.storage_name = '_{}#{}'.format(prefix, index) © 
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cls.__counter += 1 @ 


def _get (self, instance, owner): © 
return getattr(instance, self.storage_name) @ 


def _set_ (self, instance, value): 
if value > 0: 
setattr(instance, self.storage_name, value) @ 
else: 
raise ValueError('value must be > 0') 


class LineItem: 
weight = Quantity() O 
price = Quantity() 


def __ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ _counter 是 Quantity 类 的 类 属性 ， 统 计 Quantity 实例 的 数量 。 

@ cls 是 Quantity 类 的 引用 。 

© 每 个 描述 符 实 例 的 storage_name 属性 都 是 独一无二 的 ， 因 为 其 值 由 描述 符 类 的 名 称 和 

__counter 属性 的 当前 值 构 成 (例如 ，_Quantity#0)。 

© 递增 __counter 属性 的 

O 我 们 要 实现 _get__ 方法 ， 为 为 托管 属性 的 名 称 与 storage_name 不 同 。 稍 后 会 说 明 
owner 参数 。 

O 使 用 内 置 的 getattr 函数 从 instance 中 获取 储存 属性 的 值 。 

O 使 用 内 置 的 setattr 函数 把 值 存储 在 instance 中 。 

O 现在 ， 不 用 把 托管 属性 的 名 称 传 给 Quantity 构造 方法 。 这 是 这 一 版 的 目标 。 


这 里 可 以 使 用 内 置 的 高 阶 函 数 getattr 和 setattr 存 取 值 ， 无 需 使 用 instance._dict_， 
因为 托管 属性 和 储存 属性 的 名 称 不 同 ， 所 以 把 储存 属性 传 给 getattr 函数 不 会 触发 描述 符 ， 
不 会 像 示 例 20-1 那样 出 现 无 限 递 归 。 


测试 bulkfood_v4.py 脚本 之 后 你 会 发 现 ，weight 和 price 描述 符 能 按 预期 使 用 ， 而 且 储 存 
属性 也 能 直接 读 取 一 一 这 对 调试 有 帮助 : 


>>> from bulkfood v4 import LineItem 

>>> coconuts = LineItem('Brazilian coconut', 20, 17.95) 

>>> coconuts.weight, coconuts.price 

(20, 17.95) 

>>> getattr(coconuts, '_Quantity#0'), getattr(coconuts, '_Quantity#1') 
(20, 17.95) 

















全 
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如 果 想 使 用 Python 矫正 名 称 的 约定 方式 〈 例 如 _LineItem_quantityo), 要 
知道 托管 类 ( 即 LineItem) 的 名 称 ， 可 是 ， 解 释 器 要 先 运 行 类 的 定义 体 才能 
构建 类 ， 因 此 创建 描述 符 实例 时 得 不 到 那个 信息 。 不 过 ， 对 这 个 示例 来 说 ， 
为 了 防止 不 小 心 被 子 类 覆盖 ， 不 用 包含 托管 类 的 名 称 ， 因 为 每 次 实例 化 新 的 
描述 符 ， 描 述 符 类 的 __counter 属性 都 会 递增 ， 从 而 确保 每 个 托管 类 的 每 个 
储存 属性 的 名 称 都 是 独一无二 的 。 
































注意 ，_get Wik A = + BR: self, instance 和 owner, owner 参数 是 托管 类 (如 
LineItem) 的 引用 ， 通 过 描述 符 从 托管 类 中 获取 属性 时 用 得 到 。 如 果 使 用 LineItem.weight 
从 类 中 获取 托管 属性 (以 weight 为 例 )， 描 述 符 的 _get “方法 接收 到 的 instance 参数 值 
是 None。 因 此 ， 下 述 控制 台 会 话 才 会 抛 出 AttributeError 异常 : 

>>> from bulkfood_v4 import LineItem 


>>> LineItem.weight 
Traceback (most recent call last): 














File ".../descriptors/bulkfood_v4.py", line 54, in __get__ 
return getattr(instance, self.storage_name) 
AttributeError: 'NoneType' object has no attribute ' Quantity#0' 


抛 出 AttributeError 异常 是 实现 _get ”方法 的 方式 之 一 ， 如 果 选 择 这 么 做 ， 应 该 修改 
错误 消息 ， 去 掉 令 人 困惑 的 NoneType 和 _Quantity#6， 这 是 实现 细节 。 把 错误 消息 改 成 
"'LineItem' class has no such attribute" 更 好 。 最 好 能 给 出 缺少 的 属性 名 ， 但 是 在 这 个 
示例 中 ， 描 述 符 不 知道 托管 属性 的 名 称 ， 因 此 目前 只 能 做 到 这 样 。 


此 外 ， 为 了 给 用 户 提 供 内 省 和 其 他 元 编程 技术 支持 ， 通 过 类 访问 托管 属性 时 ， 最 好 让 
_get “方法 返回 描述 符 实例 。 示 例 20-3 对 示例 20-2 做 了 小 幅 改 动 ， 为 Quantity._get__ 
方法 添加 了 一 些 逻 辑 。 


示例 20-3 bulkfood_v4b.py (只 列 出 部 分 代码 ) : 通过 托管 类 调用 时 ，_ get “方法 返回 
描述 符 的 引用 
class Quantity: 
Counter = 0 























def _ init__(self): 
cls = self.__class__ 
prefix = cls.__name__ 
index = cls.__counter 
self.storage_name = '_{}#{}'.format(prefix, index) 
cls.__counter += 1 


def _ get (self, instance, owner): 
if instance is None: 
return self @ 
else: 
return getattr(instance, self.storage_ name) @ 


def _ set_ (self, instance, value): 
if value > 0: 


























setattr(instance, self.storage_name, value) 
else: 
raise ValueError('value must be > 0') 


O 如 有 果 不 是 通过 实例 调用 ， 返 回 描述 符 自身 。 
O 否则 ， 像 之 前 一 样 ， 返 回 托管 属性 的 值 。 


测试 示例 20-3， 会 看 到 如 下 结果 : 


>>> from bulkfood_v4b import LineItem 

>>> LineItem.price 

<bulkfood_v4b.Quantity object at 0x100721be0> 
>>> br_nuts = LineItem('Brazil nuts', 10, 34.95) 
>>> br_nuts.price 

34.95 


看 着 示例 20-2， 你 可 能 觉得 就 为 了 管理 几 个 属性 而 编写 这 么 多 代码 不 值得 ， 但 是 要 知道 ， 
描述 符 逻 辑 现 在 被 抽象 到 单独 的 代码 单元 (Quantity 类 ) 中 了 。 通 常 ， 我 们 不 会 在 使 用 描 
述 符 的 模块 中 定义 描述 符 ， 而 是 在 一 个 单独 的 实用 工具 模块 中 定义 ， 以 便 在 整个 应 用 中 使 
用 一 一 如 果 开 发 的 是 框架 ， 其 至 会 在 多 个 应 用 中 使 用 。 

了 解 这 一 点 之 后 就 可 推 知 ， 示 例 20-4 是 描述 符 的 常规 用 法 。 























示例 20-4 ”bulkfood_v4c.py: 整洁 的 LineItem 类 ; Quantity 描述 符 类 现在 位 于 导入 的 
model_v4c 模块 中 


import model_v4c as model @ 





class LineItem: 
weight = model.Quantity() @ 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


Q 导入 model_v4c 模块 ， 指 定 一 个 更 友好 的 名 称 。 
@ 使 用 model.Quantity 描述 符 。 
Django 用 户 会 发 现 ， 示 例 20-4 非常 像 模型 定义 。 这 不 是 巧合 : Django 模型 的 字段 就 是 描 








就 目前 的 实现 来 说 ，Quantity 描述 符 能 出 色 地 完成 任务 。 它 唯一 的 缺点 是 ， 
储存 属性 的 名 称 是 生成 的 〈 如 -Quantity#9)， 导 致 用 户 难以 调试 。 但 这 是 不 
得 已 而 为 之 ， 如 果 想 自动 把 储存 属性 的 名 称 设 成 与 托管 属性 的 名 称 类 似 ， 需 
要 用 到 类 装饰 器 或 元 类 ， 而 这 两 个 话题 到 第 21 章 才 会 讨论 。 
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描述 符 在 类 中 定义 ， 因 此 可 以 利用 继承 重用 部 分 代码 来 创建 新 描述 符 。 下 一 六 会 这 么 做 。 














特性 工厂 函数 与 描述 符 类 比较 
特性 工厂 函数 若 想 实 现 示 例 20-2 中 增强 的 描述 符 类 并 不 难 ， 只 需 在 示例 19-24 的 基础 
上 添加 几 行 代码 。__counter 变量 的 实现 方式 是 个 难点 ， 不 过 我 们 可 以 把 它 定义 成 工厂 
函数 对 象 的 属性 ， 以 便 在 多 次 调用 之 间 持 续 存 在 ， 如 示例 20-5 所 示 。 


示例 20-5 bulkfood_v4prop.py: 使 用 特性 工厂 函数 实现 与 示例 20-2 中 的 描述 符 类 
相同 的 功能 
def quantity(): @ 
try: 
quantity.counter += 1 @ 
except AttributeError: 
quantity.counter = 0 © 


storage_name = '_{}:{}'.format('quantity', quantity.counter) @ 


def qty_getter (instance): © 
return getattr(instance, storage_name) 


def qty_setter(instance, value): 
if value > 0: 
setattr(instance, storage_name, value) 
else: 
raise ValueError('value must be > 0') 


return property(qty_getter, qty_setter) 
@ 没有 storage_name 参数 。 


O 不 能 依靠 类 属性 在 多 次 调用 之 间 共 享 counter， 因 此 把 它 定义 为 quantity 函数 自身 
的 属性 。 


© 如 果 quantity.counter 属性 未 定义 ， 把 值 设 为 0。 
@ 我 们 也 没有 实例 变量 ， 因 此 创建 一 个 局 部 变量 storage_name， 借 助 闭 包 保持 它 的 
值 ， 供 后 面 的 qty_getter 和 qty_setter 有 函数 使 用 。 


O 余下 的 代码 与 示例 19-24 一 样 ， 不 过 这 里 可 以 使 用 内 置 的 getattr 和 setattr 函数 ， 
而 不 用 处 理 instance._ dict__ At, 


那么 ,你 喜欢 哪个 了 示例 20-2 还 是 示例 20-5 ? 
我 喜欢 描述 符 类 那 种 方式 ， 主 要 有 下 列 两 个 原因 。 


。 描述 符 类 可 以 使 用 子 类 扩展 ; 若 想 重 用 工厂 函数 中 的 代码 ， 除 了 复制 粘贴 ， 很 难 有 
。 与 示例 20-5 中 使 用 函数 属性 和 闭 包 保 桂 状态 相 比 ， 在 类 属性 和 实例 属性 中 保持 状 
态 更 易于 理解 。 
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此 外 ， 解 说 示例 20-5 时 ， 我 没有 画 机 器 和 小 怪 普 的 动力 。 特 性 工厂 函数 的 代码 不 依 赖 
奇怪 的 对 象 关 系 ， 而 描述 符 的 方法 中 有 名 为 self f instance 的 参数 ， 表 明 里 面 涉 及 
奇怪 的 对 象 关 系 。 

总 之 ， 从 某 种 程度 上 来 讲 ， 特 性 工厂 函数 模式 较 简 单 ， 可 是 描述 符 类 方式 更 易 扩 展 ， 
而 且 应 用 也 更 广泛 。 











20.1.3 ”LineItem 类 第 5 版 : 一 种 新 型 描述 符 


我 们 虚构 的 有 机 食物 网 店 遇 到 一 个 问题 : 不 知 怎么 回 事 儿 ， 有 个 商品 的 描述 信息 为 空 ， 导 
致 无 法 下 订单 。 为 了 避免 出 现 这 个 问题 ， 我 们 要 再 创建 一 个 描述 符 ，NonBLank。 在 设计 
NonBlank 的 过 程 中 ， 我 们 发 现 ， 它 与 Quantity 描述 符 很 像 ， 只 是 验证 逻辑 不 同 。 
回想 Quantity 的 功能 ， 我 们 注意 到 它 做 了 两 件 不 同 的 事 : 管理 托管 实例 中 的 储存 属性 ， 以 
及 验证 用 于 设置 那 两 个 属性 的 值 。 由 此 可 知 ， 我 们 可 以 重 构 ， 并 创建 两 个 基 类 。 
AutoStorage 
自动 管理 储存 属性 的 描述 符 类 。 
Validated 
扩展 AutoStorage 类 的 抽象 子 类 ， 履 盖 _set 方法 ,调用 必须 由 子 类 实现 的 validate 
方法 。 


我 们 稍 后 会 重 写 Quantity 类 ， 并 实现 NonBLank， 让 它 继承 Validated 类 ， 只 编写 validate 
方法 。 类 之 间 的 关系 见 图 20-5, 



















































































«descriptor» 
- Quantit 
ea 
AutoStorage «descriptor» 
} validate 
_ counter Validated 人 
storage_name |< | ë O 


__init__ set oe 

et validate «descriptor» 
ss NonBlank 
__set__ 


20-5: 几 个 描述 符 类 的 层次 结构 。AutoStorage 基 类 负责 自动 存储 属性 ，Validated 类 做 验证 ， 把 
职责 委托 给 抽象 方法 validate; Quantity 和 NonBlank 是 Validated 的 具体 子 类 














Validated, Quantity 和 NonBLank 三 个 类 之 间 的 关系 体现 了 模板 方法 设计 模式 。 具 体 而 言 ， 
Validated. set “方法 正 是 Gamma 等 四 人 所 描述 的 模板 方法 的 例证 : 
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这 里 ， 抽 象 的 操作 是 验证 。 示 例 20-6 列 出 图 20-5 中 各 个 类 的 实现 。 


一 个 模板 方法 用 一 些 抽象 的 操作 定义 一 个 算法 ， 而 子 类 将 重 定 义 这 些 操作 以 提供 具 


体 的 行为 。” 





示例 20-6 model v5.py: 重 构 后 的 描述 符 类 5 


import abc 


class AutoStorage: © 
__counter = 0 


def _ init__(self): 
cls = self.__class__ 
prefix = cls.__name__ 
index = cls.__counter 
self.storage_name = '_{}#{}'.format(prefix, index) 
cls.__counter += 1 


def _get (self, instance, owner): 
if instance is None: 
return self 
else: 
return getattr(instance, self.storage_name) 


def __set__(self, instance, value): 
setattr(instance, self.storage_name, value) @ 


class Validated(abc.ABC, AutoStorage): © 


def _ set_ (self, instance, value): 
value = self.validate(instance, value) @ 
super().__set__(instance, value) O 


@abc. abstractmethod 
def validate(self, instance, value): @ 
"""return validated value or raise ValueError""" 


class Quantity(Validated): @ 
"""a number greater than zero""" 
def validate(self, instance, value): 
if value <= 0: 
raise ValueError('value must be > 0') 
return value 


class NonBlank(Validated): 





H 





E 4: 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 第 215 页 。 




































































ES: 因为 20.5 节 有 文档 字符 串 的 截图 ， 为 了 保持 一 致 ， 所 以 这 里 的 文档 字符 中 

















描述 符 
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""a string with at least one non-space character""" 


def validate(self, instance, value): 
value = value.strip() 
if len(value) == 0: 
raise ValueError('value cannot be empty or blank') 
return value @ 


@ AutoStorage 类 提供 了 之 前 Quantity 描述 符 的 大 部 分 功能 …… 

O 伶 证 除外 。 

© Validated 是 抽象 类 ， 不 过 也 继承 自 AutoStorage 类 。 

O _set “方法 把 验证 操作 委托 给 validate ae RENG 

Oos 然后 把 返回 的 value 传 给 超 类 的 _set 方法 ,存储 值 。 

O 在 这 个 类 中 ，validate 是 抽象 方法 。 

@ Quantity 和 NonBlank 都 继承 自 Validated 类 。 

O 要 求 具体 的 validate 方法 返回 验证 后 的 值 ， 借 机 可 以 清理 、 转 换 或 规范 化 接收 的 数据 。 
这 里 ， 我 们 把 value 首尾 的 空白 去 掉 ， 然 后 将 其 返回 。 


model_v5.py 脚本 的 用 户 不 需要 知道 全 部 细节 。 用 户 只 需 知 道 ， 他 们 可 以 使 用 Quantity 和 
NonBlank 自动 验证 实例 属性 。 参 见 示例 20-7 中 的 最 新 版 Lineltem 类 。 









































示例 20-7 bulkfood_v5.py: 使 用 Quantity 和 NonBlank 描述 符 的 LineItem 类 
import model_v5 as model @ 


class LineItem: 
description = model.NonBlank() @ 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 
Q 导入 model_v5 模块 ， 指 定 一 个 更 友好 的 名 称 。 
@ 使 用 model .NonBlank 描述 符 。 其 余 的 代码 没 变 。 
本 章 所 举 的 几 个 LineIten 示例 演示 了 描述 符 的 典型 用 途 一 一 管理 数据 属性 。 这 种 描述 符 也 叫 
覆盖 型 描述 符 ， 因 为 描述 符 的 _set “方法 使 用 托管 实例 中 的 同名 属性 覆盖 〈 即 插手 接管 ) 
了 要 设置 的 属性 。 不 过 ， 也 有 非 覆 盖 型 描述 符 。 下 一 市 会 详 述 这 两 种 描述 符 之 间 的 区 别 。 


20.2 ”覆盖 型 与 非 履 盖 型 描述 符 对 比 


如 前 所 述 ，Python 存 取 属 性 的 方式 特别 不 对 等 。 通 过 实例 读 取 属 性 时 ， 通 常 返回 的 是 实例 
中 定义 的 属性 ， 但是， 如果 实例 中 没有 指定 的 属性 ， 那 么 会 获取 类 属性 。 而 为 实例 中 的 属 






























































526 | 第 20 章 





性 赋值 时 ， 通 常会 在 实例 中 创建 属性 ， 根 本 不 影响 类 。 


这 种 不 对 等 的 处 理 方式 对 描述 符 也 有 影响 。 其 实 ， 根 据 是 否定 义 _set 方法， 描述 符 可 
分 为 两 大 类 。 若 想 观察 这 两 类 描述 符 的 行为 差异 ， 则 需 gery Oy 我 们 将 使 用 示例 
20-8 中 的 代码 作为 接 下 来 几 节 的 试验 台 。 


在 示例 20-8 中 ,每 个 _get_ 和 _ set 方法 都 调用 了 print_args 函数 ， 使 
a a et lei 
display， 因 此 不 要 花心 思 研 究 它 们 。 




















示例 20-8 ”descriptorkinds.py: 几 个 简单 的 类 ， 用 于 研究 描述 符 的 覆盖 行为 
### 辅助 函数 , 仅 用 于 显示 et 








def cls_name(obj or_cls): 
cls = type(obj_or_cls) 
if cls is type: 
cls = obj_or_cls 
return cls.__name__.split('.')[-1] 


def display(obj): 
cls = type(obj) 
if cls is type: 
return ‘<class {}>'.format(obj.__name__) 
elif cls in [type(None), int]: 
return repr(obj) 
else: 
return '<{} object>'.format(cls_name(obj)) 


def print_args(name, *args): 


pseudo_args = ', '.join(display(x) for x in args) 
print('-> {}.__{}__({})'.format(cls_name(args[0]), name, pseudo_args)) 


### 对 这 个 示例 重要 的 类 AH 





class Overriding: @ 


""" 也 称 数据 描述 符 或 强制 描述 符 """ 





def _ get__(self, instance, owner): 
print_args('get', self, instance, owner) @ 


def _ set_ (self, instance, value): 


print_args('set', self, instance, value) 


class OverridingNoGet: © 
""" 没 有 “_get_、… 方 法 的 覆盖 型 描述 符 """ 





def _ set_ (self, instance, value): 
print_args('set', self, instance, value) 
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class NonOverriding: @ 


""" 也 称 非 数据 描述 符 或 迹 盖 型 描述 符 """ 





def _get_ (self, instance, owner): 
print_args('get', self, instance, owner) 


class Managed: © 
over = Overriding() 
over_no_get = OverridingNoGet() 
non_over = NonOverriding() 


def spam(self): QO 
print('-> Managed.spam({})'.format(display(self))) 


O A set 和 _ set 方法 的 典型 覆盖 型 描述 符 。 

O 在 这 个 示例 中 ， 各 个 描述 符 的 每 个 方法 都 调用 了 print_args KZ. 
O A set 方法 的 覆盖 型 描述 符 。 

O 没有 _ set 方法 ， 所 以 这 是 非 覆 盖 型 描述 符 。 

O 托管 类 ， 使 用 各 个 描述 符 类 的 一 个 实例 。 

© spam 方法 放 在 这 里 是 为 了 对 比 ， 因 为 方法 也 是 描述 符 。 


在 接 下 来 的 几 节 中 ， 我 们 要 分 析 对 Managed 类 及 其 实例 做 属性 读 写 时 的 行为 ， 还 会 讨论 所 
定义 的 各 个 描述 符 。 


20.2.1 覆盖 型 描述 符 


实现 _set “方法 的 描述 符 属 于 履 盖 型 描述 符 ， 因 为 虽然 描述 符 是 类 属性 ， 但 是 实现 
_set 方法 的 话 ， 会 覆盖 对 实例 属性 的 赋值 操作 。 示 例 20-2 就 是 这 样 实现 的 。 特 
性 也 是 覆盖 型 描述 符 : 如 果 没 提供 设 值 函数 ，property 类 中 的 _set HEA HH 
AttributeError 异常 ， 指 明 那 个 属性 是 只 读 的。 我 们 可 以 使 用 示例 20-8 中 的 代码 测试 覆盖 
型 描述 符 的 行为 ， 如 示例 20-9 所 示 。 


示例 20-9 ”覆盖 型 描述 符 的 行为 ， 其 中 obj.over 是 Overriding 类 ( 见 示例 20-8) 的 实例 

>>> obj = Managed() @ 

>>> obj.over @ 

-> Overriding.__get__(<Overriding object>, <Managed object>, 
<class Managed>) 

>>> Managed.over © 

-> Overriding.__get__(<Overriding object>, None, <class Managed>) 

>>> obj.over = 7 

-> Overriding.__set__(<Overriding object>, <Managed object>, 7) 

>>> obj.over 日 

-> Overriding.__get__(<Overriding object>, <Managed object>, 
<class Managed>) 

>>> obj.__dict__['over']=8 © 

>>> vars(obj) @ 

{'over': 8} 
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>>> obj.over O 
-> Overriding.__get__(<Overriding object>, <Managed object>, 
<class Managed>) 


@ 创建 供 测试 使 用 的 Managed 对 象 。 

@ obj.over 触发 描述 符 的 _get 方法， 第 二 个 参数 的 值 是 托管 实例 obj, 

© Managed.over 触发 描述 符 的 get ee 第 二 个 参数 (instance) 的 值 是 None, 

O 为 obj.over 赋值 ， 触 发 描述 符 的 _set 方法， 最 后 一 个 参数 的 值 是 7。 

© 读 取 obj.over， 仍 会 触发 描述 a 

O 跳 过 描述 符 ， 直 接 通 过 obj._dict_ 属性 设 值 。 

O 确认 值 在 obj._dict__ 属性 中 ， 在 over 键 名 下 。 

© 然而 ， 即 使 是 名 为 over 的 实例 属性 ，Managed .over 描述 符 仍 会 覆盖 读 取 obj.over 这 个 
操作 。 


20.2.2 没有 __get_ 方法 的 覆盖 型 描述 符 
通常 ， 覆 盖 型 描述 符 既 会 实现 set DE, BARA gt 方法 ， 不 过 也 可 以 只 实 






















































































现 _ se t_ 方法 ， 如 示例 20-1 所 示 。 此 时 ， 只 有 写 操作 由 描述 符 处 理 。 通 过 实例 读 取 描 
述 符 会 返回 描述 符 对 象 本 身 ， 因 为 没有 处 理 读 操作 的 _get__ 方 法 。 a 
dict “属性 创建 同名 实例 属性 ， 以 后 再 设置 那个 属性 时 ， 仍 会 由 set 方法 插手 接管 ， 


但 是 读 取 那 个 属性 的 话 ， 就 会 直接 从 实例 中 返回 新 赋予 的 值 ， 而 不 会 Derren 术 符 对 象 。 也 
就 是 说， 实例 属性 会 遮盖 描述 符 ， 不 过 只 有 读 操 作 是 如 此 。 参 见 示例 20-10。 


示例 20-10 没有 _ get 方法 的 覆盖 型 描述 符 ， 其 中 obj.over_no_get 是 OverridingNoGet 
类 ( 见 示例 20-8) 的 实例 


>>> obj.over_no_get @ 

<__main__.OverridingNoGet object at 0x665bcc> 

>>> Managed.over_no_get @ 

<__main__.OverridingNoGet object at 0x665bcc> 

>>> obj.over_no_get = 7 © 

-> OverridingNoGet.__set__(<OverridingNoGet object>, <Managed object>, 7) 
>>> obj.over_no_get @ 

<__main__.OverridingNoGet object at 0x665bcc> 

>>> obj.__dict__['over_no_get']=9 日 

>>> obj.over_no_get QO 

9 

>>> obj.over no get = 7 @ 

-> OverridingNoGet.__set__(<OverridingNoGet object>, <Managed object>, 7) 
>>> obj.over_no_get O 

9 


O 这 个 覆盖 型 描述 符 没 有 _get “方法 ， 因 此 ，obj.over_no_get 从 类 中 获取 描述 符 实例 。 

O 直接 从 托管 类 中 读 取 描述 符 实例 也 是 如 此 。 

© 为 obj.over_no_get 赋值 会 触发 描述 符 的 _set “方法 。 

O 因为 、set ”方法 没有 修改 属性 ， 所 以 在 此 读 取 obj.over_no_get 获取 的 仍 是 托管 类 中 
的 描述 符 实例 。 

© 通过 实例 的 __dict_ 属性 设置 名 为 over_no_get 的 实例 属性 。 
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© 现在 ，over_no_get 实例 属性 会 遮盖 描述 符 ， 但 是 只 有 读 操作 是 如 此 。 
@ 为 obj.over_no_get 赋值 ， 仍 然 经 过 描述 符 的 _set “方法 处 理 。 
O 但 是 读 取 时 ， 只 要 有 同名 的 实例 属性 ， 摘 述 符 就 会 被 遮盖 。 


20.2.3” 非 覆盖 型 描述 符 


没有 实现 _set ”方法 的 描述 符 是 非 覆 盖 型 描述 符 。 如 有 果 设 置 了 同名 的 实例 属性 ， 描 述 符 
会 被 遮盖 ， 致 使 描述 符 无 法 处 理 那 个 实例 的 那个 属性 。 方 法 是 以 非 履 盖 型 描述 符 实现 的 。 
示例 20-11 展示 了 对 一 个 非 覆 盖 型 描述 符 的 操作 。 


示例 20-11 非 覆 盖 型 描述 符 的 行为 ， 其 中 obj.non_over 是 NonOverriding 类 ( 见 示例 

20-8) 的 实例 

>>> obj = Managed() 

>>> obj.non_over @ 

-> NonOverriding.__get__(<NonOverriding object>, <Managed object>, 
<class Managed>) 

>>> obj.non over = 7 @ 

>>> obj.non_over © 

7 

>>> Managed.non_over @ 

-> NonOverriding.__get__(<NonOverriding object>, None, <class Managed>) 

>>> del obj.non_over @ 

>>> obj.non_over @ 

-> NonOverriding.__get__(<NonOverriding object>, <Managed object>, 
<class Managed>) 


@ obj.non_over 触发 描述 符 的 _get 方法， 第 二 个 参数 的 值 是 obj。 

@ Managed.non_over 是 非 窗 盖 型 描述 符 ， 因 此 没有 干涉 赋值 操作 的 _set ”方法 。 

© HE, obj 有 个 名 为 non_over 的 实例 属性 ， 把 Managed 类 的 同名 描述 符 属性 遮盖 掉 。 

@ Managed.non_over 描述 符 依然 存在 ， 会 通过 类 截获 这 次 访问 。 

© 如 果 把 non_over 实例 属性 删除 了 …… 

© ALA, HX obj.non_over 时 ， 会 触发 类 中 描述 符 的 _get “方法 ;但 要 注意 ， 第 二 个 参 
数 的 值 是 托管 实例 。 


















































Python 贡献 者 和 作者 讨论 这 些 概念 时 会 使 用 不 同 的 术语 。 履 盖 型 描述 符 也 叫 数 
据 描 述 符 或 强制 描述 符 。 非 覆盖 型 描述 符 也 叫 非 数 据 描述 符 或 遮盖 型 描述 符 。 














在 上 述 几 个 示例 中 ， 我 们 为 几 个 与 描述 符 同 名 的 实例 属性 赋 了 值 ， 结 果 依 朱 述 符 中 是 否 有 
—set_ 方法 而 有 所 不 同 。 

依附 在 类 上 的 描述 符 无 法 控制 为 类 属性 赋值 的 操作 。 其 实 ， 这 意味 着 为 类 属性 赋值 能 覆盖 
描述 符 属性 ， 正 如 下 一 市 所 述 的 。 
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20.2.4 ”在 类 中 和 覆盖 描述 符 


不 管 描 述 符 是 不 是 覆盖 型 ,为 类 属性 赋值 都 能 覆盖 描述 符 。 这 是 一 种 猴子 补丁 技术 ， 不 过 
在 示例 20-12 中 ， a Oe 这 其 实 会 导致 依赖 描述 符 的 类 不 能 正确 地 
执行 操作 。 


示例 20-12 通过 类 可 以 覆盖 任何 描述 符 
>>> obj = Managed() @ 
>>> Managed.over = 1 @ 
>>> Managed.over_no_get = 2 
>>> Managed.non_over = 3 
>>> obj.over, obj.over_no_get, obj.non_over © 
(1, 2, 3) 


O 为 后 面 的 测试 新 建 一 个 实例 。 

O 覆盖 类 中 的 描述 符 属性 。 

O 描述 符 真 的 不 见 了 。 

示例 20-12 揭示 了 读 写 属性 的 另 一 种 不 对 等 : 读 类 属性 的 操作 可 以 由 依附 在 托管 类 上 定义 
有 _ get ”方法 的 描述 符 处 理 ， 但 是 写 类 属性 的 操作 不 会 由 依附 在 托管 类 上 定义 有 __set 
方法 的 描述 符 处 理 。 


若 想 控制 设置 类 属性 的 操作 ， 要 把 描述 符 依附 在 类 的 类 上 ， 即 依附 在 元 类 上 。 
默认 情况 下 ， 对 用 户 定义 的 类 来 说 ， 甚 元 类 是 type， 而 我 们 不 能 为 type 添 
加 属性 。 不 过 在 第 21 章 ， 我 们 会 自己 创建 元 类 。 






























































下 面 我 们 调转 话题 ， 分 析 Python 是 如 何 使 用 描述 符 实现 方法 的 。 


wos \ AA 
20.3 方法 是 描述 符 
在 类 中 定义 的 函数 属于 绑 定 方法 (bound method)， 因 为 用 户 定义 的 函数 都 有 __get__ 


方法 ， 所 以 依附 到 类 上 时 ， 就 相当 于 描述 符 。 示 例 20-13 演示 了 从 示例 20-8 里 定义 的 
Managed 类 中 读 取 span 方法 。 


示例 20-13 ”方法 是 非 覆 盖 型 描述 符 
>>> obj = Managed() 
>>> obj.spam @ 
<bound method Managed.spam of <descriptorkinds.Managed object at 0x74c80c>> 
>>> Managed.spam @ 
<function Managed.spam at 0x734734> 
>>> obj.spam=7 © 
>>> obj.spam 
7 


© obj. span 获取 的 是 绑 定 方法 对 象 。 
@ 但 是 Managed. spam 获取 的 是 函数 。 





























© 如 果 为 obj.spam 赋值 ， 会 遮盖 类 属性 ， 导 致 无 法 通过 obj 实例 访问 spam 方法 。 

函数 没有 实现 _set 方法 ， 因 此 是 非 履 盖 型 描述 符 ， 如 示例 20-13 中 的 最 后 一 行 所 示 。 
从 示例 20-13 中 还 可 以 看 出 一 个 重要 信息 : obj.spam FH Managed. spam 获取 的 是 不 同 的 对 
象 。 与 描述 符 一 样 ， 通 过 托管 类 访问 上 时， 函数 的 _get ”方法 会 返回 自身 的 引用 。 但 是 ， 
通过 实例 访问 时 ， 国 数 的 _get “方法 返回 的 是 绑 定 方法 对 象 : 一 种 可 调用 的 对 象 ， 里 
面包 装着 国 数 ， 并 把 托管 实例 (例如 obj) 绑 定 给 函数 的 第 一 个 参数 (BI self)， 这 与 
functools.partial 函数 的 行为 一 致 (参见 5.10.2 节 )。 

为 了 深入 理解 这 种 机 制 ， 请 看 示例 20-14。 


示例 20-14 method_is_descriptor.py: Text 类 ， 继 承 自 UserString 类 
import collections 















































class Text(collections.UserString): 


def _ repr__(self): 
return 'Text({!r})'.format(self.data) 


def reverse(self): 
return self[::-1] 


下 面 来 分 析 Text.reverse 方法 ， 如 示例 20-15 所 示 。 
示例 20-15 ”测试 一 个 方法 


>>> word = Text('forward') 

>>> word @ 

Text('forward') 

>>> word.reverse() @ 

Text('drawrof') 

>>> Text.reverse(Text('backward')) © 

Text('drawkcab' ) 

>>> type(Text.reverse), type(word.reverse) @ 

(<class 'function'>, <class 'method'>) 

>>> List(map(Text.reverse, ['repaid', (10, 20, 30), Text('stressed')])) © 
['diaper', (30, 20, 10), Text('desserts')] 

>>> Text.reverse.__get__(word) QO 

<bound method Text.reverse of Text('forward')> 

>>> Text.reverse.__get__(None, Text) @ 

<function Text.reverse at 0x101244e18> 

>>> word.reverse @ 

<bound method Text.reverse of Text('forward')> 

>>> word.reverse.__self__ © 

Text('forward') 
>>> word.reverse._func_ 
True 


@ Text 实例 的 repr 方法 返回 一 个 类 似 Text 构造 方法 调用 的 字符 串 ， 可 用 于 创建 相同 的 实例 。 
@ reverse 方法 返回 反 向 拼写 的 单词 。 
© 在 类 上 调用 方法 相当 于 调用 函数 。 














is Text.reverse @ 
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O 注意 类 型 是 不 同 的 ， 一 个 是 function， 一 个 是 method。 

O Text.reverse 相当 于 国 数 ， 甚 至 可 以 处 理 Text 实例 之 外 的 其 他 对 象 。 

O 函数 都 是 非 履 盖 型 描述 符 。 在 函数 上 调用 _get “方法 时 传人 实例， 得 到 的 是 绑 定 到 那 
个 实例 上 的 方法 。 

O 调用 函数 的 _get “方法 时 ， 如 果 instance 参数 的 值 是 None， 那 么 得 到 的 是 函数 本 身 。 

O word.reverse 表达 式 其 实 会 调用 Text.reverse. get (word)， 返 回 对 应 的 绑 定 方法 。 

O 绑 定 方法 对 象 有 个 _self__ 属性 ， 其 值 是 调用 这 个 方法 的 实例 引用 。 

O HEHE func 属性 是 依附 在 托管 类 上 那个 原始 函数 的 引用 。 


绑 定 方法 对 象 还 有 个 _call__ 方法， 用 于 处 理 真正 的 调用 过 程 。 这 个 方法 会 调用 _func_ 
属性 引用 的 原始 函数 ， 把 国 数 的 第 一 个 参数 设 为 绑 定 方法 的 _selLf 属性 。 这 就 是 形 参 
self 的 隐 式 绑 定 方式 。 

国 数 会 变 成 绑 定 方法 ， 这 是 Python 语言 底层 使 用 描述 符 的 最 好 例证 。 

识 入 了 解 描述 符 和 方法 的 运作 方式 之 后 ， 下 面 讨论 用 法 方面 的 一 些 实用 建议 。 


WIS Ar 2 sa 

20.4 描述 符 用 法 建议 

下 面 根据 刚刚 论述 的 描述 符 特 征 给 出 一 些 实用 的 结论 。 

使 用 特性 以 保持 简单 
内 置 的 property 类 创建 的 其 实 是 覆盖 型 描述 符 ，__set_ 方法 和 __get_ 方法 都 实现 
了 ， 即 便 不 定义 设 值 方 法 也 是 如 此 。 特 性 的 __set__ 方法 默认 抛 出 AttributeError: 
can't set attribute， 因 此 创建 只 读 属 性 最 简单 的 方式 是 使 用 特性 ， 这 能 避免 下 一 条 所 
述 的 问题 。 

只 读 描 述 符 必须 有 set 方法 
如 果 使 用 描述 符 类 实现 只 读 属 性 ， 要 记 住 ，_get_ Iset 两 个 方法 必须 都 
定义 ， 否 则 ， 实 例 的 同名 属性 会 遮盖 描述 符 。 只 读 属 性 的 _set ”方法 只 需 抛 出 
AttributeError 异常 ， 并 提供 合适 的 错误 消息 。” 

用 于 验证 的 描述 符 可 以 只 有 _ set_ 方法 
对 仅 用 于 验证 的 描述 符 来 说 ，__set__ 方法 应 该 检查 value 参数 获得 的 值 ， 如 果 有 效 ， 
使 用 描述 符 实 例 的 名 称 为 键 ， 直 接 在 实例 的 __dict_ 属性 中 设置 。 这 样 ， 从 实例 中 读 
取 同 名 属性 的 速度 很 快 ， 因 为 不 用 经 过 _get_ “方法 处 理 。 参 见 示 例 20-1 中 的 代码 。 


BA set 方法 的 描述 符 可 以 实现 高 效 绥 存 


如 果 只 编写 了 _get 方法， 那么 创建 的 是 非 履 盖 型 描述 符 。 这 种 描述 符 可 用 于 执行 
某 些 耗费 资源 的 计算 ， 然 后 为 实例 设置 同名 属性 ， 缓 存 结果 。 同 名 实例 属性 会 遮盖 描 




















































































































注 6: Python 为 此 类 异常 提供 的 错误 消息 不 一 致 。 如 果 试 图 修改 complex 的 c.real 属性 ， 那 么 得 到 的 错误 
消息 是 AttributeError: read-only attribute; 但 是 ,如 果 试 图 修改 c.conjugate(complex 对 象 的 方法 )， 
那么 得 到 的 错误 消息 是 AttributeError: 'complex' object attribute 'conjugate' is read-only, 












































述 符 ， 因 此 后 续 访 问 会 直接 从 实例 的 _dict _ 属性 中 获取 值 ， 而 不 会 再 触发 描述 符 的 
__get Five, 
非特 殊 的 方法 可 以 被 实例 属性 所 盖 

由 于 函数 和 方法 只 实现 了 __get_ 方法 ， 它 们 不 会 处 理 同名 实例 属性 的 赋值 操作 。 因 
此 ， 像 my_obj.the_method = 7 这 样 简单 赋值 之 后 ， 后 续 通过 该 实例 访问 the_method 
得 到 的 是 数字 7 一 一 但 是 不 影响 类 或 其 他 实例 。 然 而 ， 特 殊 方法 不 受 这 个 问题 的 影响 。 
解释 器 只 会 在 类 中 寻找 特殊 的 方法 ， 也 就 是 说 ，repr(x) 执行 的 其 实 是 x.__class_. 
repr_(x)， 因 此 x 的 _repr__ 属性 对 repr(x) 方法 调用 没有 影响 。 出 于 同样 的 原因 ， 
实例 的 _getattr_ 属性 不 会 破坏 常规 的 属性 访问 规则 。 


实例 的 非特 殊 方法 可 以 被 轻松 地 覆盖 ， 这 听 起 来 不 可 靠 且 容易 出 错 ， 可 是 在 我 使 用 Python 
的 15 年 中 从 未 受 此 困扰 。 然 而 ， 如 果 要 创建 大 量 动态 属性 ， 属 性 名 称 从 不 受 自 己 控制 的 
数据 中 获取 ( 像 本 章 前 面 那样 )， 那 么 你 应 该 知道 这 种 行为 ， 或 许 你 还 可 以 实现 某 种 机 制 ， 
过 着 或 转 义 动 态 属性 的 名 称 ， 以 维持 数据 的 健全 性 。 


示例 19-6 中 的 FrozenJSON 类 不 会 出 现实 例 属性 遮盖 方法 的 问题 ， 因 为 那个 类 
只 有 几 个 特殊 方法 和 一 个 build 类 方法 。 只 要 通过 类 访问 ， 类 方法 就 是 安全 
的 ， 在 示例 19-6 中 我 就 是 这 么 调用 FrozenJSON. build 方法 的 一 一 在 示例 19-7 
中 赫 换 成 _new_ 方法 了 。Record 类 〈 见 示例 19-9 和 示例 19-11) 及 其 子 类 也 
是 安全 的 ， 因 为 只 用 到 了 特殊 的 方法 、 类 方法 、 静 态 方法 和 特性 。 特 性 是 数据 
描述 符 ， 因 此 不 能 被 实例 属性 覆盖 。 





































































































讨论 特性 时 讲 了 两 个 功能 ， 这 里 讨论 的 描述 符 还 未 涉及 ， 结 束 本 章 之 前 我 们 来 讲 讲 : 文档 
和 对 删除 托管 属性 的 处 理 。 


20.5 ”描述 符 的 文档 字符 串 和 覆盖 删除 操作 


描述 符 类 的 文档 字符 串 用 于 注解 托管 类 中 的 各 个 描述 符 实例 。 图 20-6 中 的 截图 是 LineItem 
类 ( 见 示 例 20-7) 及 Quantity 和 NonBlank 描述 符 ( 见 示例 20-6) 的 帮助 界面 。 


提供 的 信息 有 点 不 足 。 对 LineIten 类 来 说 ， 如 果 能 说 明 weight 必须 以 千克 为 单位 就 好 了 。 
这 对 特性 来 说 是 小 菜 一 碟 ， 因 为 各 个 特性 只 处 理 特定 的 托管 属性 。 可 是 对 描述 符 来 说 ， 
weight 和 price 使 用 的 都 是 Quantity 描述 符 类 。” 

讨论 特性 时 还 讲 了 一 个 细 市 ， 而 这 里 讨论 的 描述 符 没 有 涉及 ， 那 就 是 对 删除 托管 属性 的 处 
理 。 在 描述 符 类 中 ， 实 现 常规 的 _get__ 和 (或 ) _set “方法 之 外 ， 可 以 实现 delete 
方法 ,或 者 只 实现 delete 方法 做 到 这 一 点 。 时 间 充 足 的 读者 可 以 编写 一 个 没有 实际 作 
用 的 描述 符 类 实现 _delete_ 方法 ， 就 当 作 练 习 。 









































注 7: 定制 各 个 描述 符 实例 的 帮助 文本 特别 难 。 有 一 种 方法 是 为 各 个 描述 符 实例 动态 构建 包装 类 。 
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8.0.0 
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\lontra:descriptors luciano$ python3 -i bulkfood_vS.py 
>>> help(LineItem.weight)]] 
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图 20-6: 在 Python 控制 台中 执行 help(LineItem.weight) 和 help(LineItenm) 命令 时 的 截图 


20.6 ”本 章 小 结 


本 章 的 第 一 个 示例 接续 第 19 章 的 LineIten 系列 示例 。 在 示例 20-1 中 ， 我 们 把 特性 禁 换 成 
了 描述 符 。 我 们 知道 ， 描 述 符 类 的 实例 能 用 作 托 管 类 的 属性 。 为 了 讨论 这 个 机 制 ， 我 们 引 
入 了 几 个 特殊 的 术语 ， 例 如 托管 实例 和 储存 属性 。 


在 20.1.2 市 ， 我 们 把 声明 Quantity 描述 符 所 需 的 storage_name 参数 去 掉 了 ， 那 个 参数 多 
余 且 容易 出 错 ， 因 为 实例 化 描述 符 时 指定 的 名 称 始 终 与 赋值 语句 左边 的 属性 名 一 样 。 我 们 
采用 的 方法 是 ， 结 合 描述 符 类 的 名 称 和 类 中 的 计数 器 ， 生 成 独一无二 的 storage_name ( 例 
如 '_Quantity#1' )。 


接 下 来 ， 本 章 对 比 了 描述 符 类 与 使 用 函数 式 编程 方式 构建 的 特性 工厂 函数 ,分析 了 二 者 的 
代码 量 和 优 缺 点 。 有 时 后 者 更 合适 也 更 简单 ， 但 是 前 者 更 灵活 ， 而 且 是 标准 方案 。20.1.3 节 
利用 了 描述 符 类 的 关键 优势 : 通过 子 类 共享 代码 ， 构 建 具有 部 分 相同 功能 的 专用 描述 符 。 
然后 ， 我 们 分 析 了 有 或 没有 set 方法 时 ， 描 述 符 的 行为 有 什么 不 同 ， 了 解 了 覆盖 型 描 
述 符 和 非 覆 盖 型 描述 符 之 间 的 重要 差异 。 通 过 详细 的 测试 ， 我 们 揭示 了 描述 符 何 时 接管 ， 
以 及 何 时 被 遮盖 、 被 跳 过 或 被 覆盖 。 

本 章 随后 分 析 了 非 履 盖 型 描述 符 的 一 种 具体 类 型 : 方法 。 通 过 控制 台中 的 测试 可 知 ， 通 过 
实例 访问 依附 在 类 上 的 函数 时 ， 经 由 描述 符 协 议 的 处 理 ， 就 会 变 成 方法 。 
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最 后 ， 我 们 对 描述 符 的 用 法 给 出 了 一 些 建议 ， 还 简要 说 明了 如 何 删除 描述 符 和 添加 文档 。 
这 一 章 我 们 遇 到 了 几 个 只 有 类 元 编程 能 解决 的 问题 ， 这 些 问 题 留 到 第 21 章 解 决 。 


20.7 延伸 阅读 


除了 语言 参考 手册 中 必 读 的 “Data model” 一 章 (https://docs.python.org/3/reference/datamodel. 
html), Raymond Hettinger 写 的 “Descriptor HowTo Guide” (https://docs.python.org/3/howto/ 
descriptor.html) 也 值得 一 读 一 一 这 是 Python 官方 文档 HowTo 合集 (https://docs.python. 
org/3/howto/) 中 的 一 篇 。 


对 Python 对 象 模型 相关 的 话题 来 说 ，Alex Martelli SAY «Python 技术 手册 (第 2 版 )》 一 
书 虽 然 有 点 过 时 ， 但 仍然 提供 了 权威 且 客 观 的 论述 : 本 章 讨 论 的 关键 机 制 在 Python 2.2 中 
引入 ， 远 在 那 本 书 涵盖 的 2.5 版 之 前 。Martelli 还 做 了 一 次 题 为 “Python’s Object Model” 
的 演讲 ， 深 入 探讨 了 特性 和 描述 符 [幻灯 片 Chttp://www.aleax.it/Python/nylug05_om.pdf) , 
视频 (https://www.youtube.com/watch?v=VOzvpHoY Qoo) ]， 强 烈 推荐 观看 。 














至 于 针对 Python 3 的 实例 ，David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版 ) 
中 文 版 》 一 书 中 有 很 多 说 明 摘 述 符 的 诀 窑 ， 推 荐 阅读 的 有 “6.12 ERR AK | a AY 
二 进 制 结构 ”“8.10 让 属性 具有 惰性 求 值 的 能 力 ”“8.13 实现 一 种 数据 模型 或 类 型 系统 ”和 
“9.9 把 装饰 器 定义 成 类 "。 最 后 一 个 诀窍 解决 了 函数 装饰 器 、 描 述 符 和 方法 之 间 相 互 作用 
的 深层 次 问题 ， 说 明了 如 何 使 用 有 call 方法 的 类 实现 函数 装饰 器 ， 如果 既 想 装饰 方法 
又 想 装 饰 函 数 ， 还 要 实现 get 方法 。 
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self 的 问题 


“XF & AF” (“Worse is Better”) 是 Richard P. Gabriel Æ “The Rise of Worse is Better” 
一 文 (http://dreamsongs.com/RiseOfWorselsBetter.html) 中 提出 的 设计 思想 。 这 个 思想 
的 第 一 要 义 是 “简单 ”; 对 此 ，Gabriel 说 道 : 


设计 方式 必须 简单 ， 对 实现 和 接口 来 说 都 应 如 此 。 简 单 的 实现 比 简单 的 接口 更 
重要 。 简 单 是 设计 过 程 中 最 重要 的 考虑 因素 。 


我 认为 ，Python 要 求 明 确 把 方法 的 第 一 个 参数 声明 为 self 是 “ 变 糟 更 好 ”思想 的 体 
现 。 这 样 ， 实 现 是 简单 了 (甚至 也 优雅 了 ) ， 但 却 牺牲 了 用 户 接口 : 方法 的 签名 一 一 例 
如 def zfill(self, width): 一 一 在 外 观 上 与 pobox.zfiLL(8) 调用 不 匹配 。 


这 种 做 法 (以 及 使 用 self 这 个 标识 符 ) 由 Modula-3 语言 创造 ， 但 是 与 Python 有 差 
异 : 在 Modula-3 中 ， 接 口 的 声明 与 实现 是 分 开 的 ， 而 且 在 接口 声明 中 会 省 略 self 参 
数 ， 因 此 对 用 户 来 说 ， 接 口 声明 中 的 方法 显示 的 参数 数量 与 真正 接受 的 参数 数量 完全 
一 致 。 
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在 这 方面 ，Python 有 一 项 改进 错误 消息 。 对 于 用 户 定 义 的 单 参数 ( 除 self 之 
外 ) 方法 来 说 ， 如 果 用 户 调用 obj.meth()，Python 2.7 会 抛 出 异常 ， 显 示 TypeError: 
meth() takes exactly 2 arguments (1 given); 不 过 在 Python 3.4 中 ， 错误 消 息 没 那么 

难以 理解 了 ， 解 决 了 参数 数量 问题 ， 还 指出 了 缺失 的 参数 : meth() missing 1 required 


positional argument: 'x', 


除了 要 明确 把 self 作为 参数 之 外 ， 限 制 必须 使 用 self 访问 实例 属性 也 备 受 批评 。“ 我 
自己 并 不 介意 输入 self 限定 符 ， 这 样 便于 把 局 部 变量 和 属性 区 分 开 。 我 介意 的 是 在 
def 语句 中 使 用 seLf。 但 是 我 已 经 习惯 了 。 

doe RIFA Python 要 求 显 式 使 用 seLf， 可 以 想 想 JavaScript F AW this 那 变 幻 莫 测 
的 语义 ， 这 样 感觉 就 会 好 多 了 。 像 这 样 使 用 self 有 一 些 合理 之 处 ，Guido 在 他 的 博客 
The History of Python 中 写 了 一 篇 文章 ， 题 为 “Adding Support for User-defined Classes” 
(http://python-history.blogspot.com.br/2009/02/adding-support-for-user-defined-classes. 
html), ， 说 明了 这 些 原 因 。 











注 8: 例如 ，A.M. Kuchling 发 表 的 著名 文章 “Python Warts” (存档 : http://web.archive.org/web/20031002184114/ 
www.amk.ca/python/writing/warts.html), Kuchling 自己 并 不 讨厌 self 限定 符 ， 但 是 他 提 到 了 这 一 点 一 一 
可 能 是 为 了 呼应 comp. Lang. python 邮件 列表 中 的 观点 。 



























































(AR) 是 深奥 的 知识 ，99% 的 用 户 都 无 需 关 注 。 如 果 你 想 知道 是 否 需 要 使 用 元 类 ， 
我 告诉 你 ， 不 需要 (真正 需要 使 用 元 类 的 人 确信 他 们 需要 ， 无 需 解释 原因 )。 | 


Tim Peters 


Timsort 算法 的 发 明 者 ， 活 路 的 Python 贡献 者 


类 元 编程 是 指 在 运行 时 创建 或 定制 类 的 技艺 。 在 Python 中 ,类 是 一 等 对 象 ， 因 此 任何 时 候 
都 可 以 使 用 函数 新 建 类 ， 而 无 需 使 用 class 关键 字 。 类 装饰 器 也 是 函数 ， 不 过 能 够 审查 、 
修改 ， 黄 至 把 被 装饰 的 类 替换 成 其 他 类 。 最 后 ， 元 类 是 类 元 编程 最 高 级 的 工具 : 使 用 元 类 
可 以 创建 具有 某 种 特质 的 全 新 类 种 ， 例 如 我 们 见 过 的 抽象 基 类 。 

元 类 功能 强大 ， 但 是 难以 和 掌握。 类 装饰 器 能 使 用 更 简单 的 方式 解决 很 多 问题 。 其 实 ， 
Python 2.6 引入 类 装饰 器 之 后 ， 元 类 很 难 使 用 真实 的 代码 说 明 ， 因 此 我 不 会 像 前 面 的 章 市 
那样 再 举 引 导 示 例 。 


本 章 还 会 谈 及 导入 时 和 运行 时 的 区 别 一 一 这 是 有 效 使 用 Python 元 编程 的 重要 基础 。 

这 是 一 个 令 人 兴奋 的 话题 ， 很 容易 让 人 忘乎所以 。 因 此 ， 进 入 本 章 的 正文 之 
前 ， 我 必须 告诫 你 : 

除非 开发 框架 ， 否 则 不 要 编写 元 类 
的 概念 ， 可 以 这 么 做 。 

































































然而 ,为 了 寻找 乐趣 ， 或 者 练习 相关 











首先 ， 本 章 探讨 如 何在 运行 时 创建 类 。 

















注 1: 摘自 comp.lang.python 邮件 列表 中 对 “Acrimony in c.1.p.” 话 题 的 回复 (https://mail.python.org/pipermail/ 
python-list/2002-December/134521.html)。 前 言 中 引述 的 那 句 话 也 是 出 自 这 篇 发 布 于 2002 年 12 月 23 日 
的 消息 。TimBot 在 那天 获得 了 灵感 。 
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21.1 类 工厂 函数 


本 书 多 次 提 到 标准 库 中 的 一 个 类 工厂 函数 collections.namedtuple。 我 们 把 一 个 类 名 
和 几 个 属性 名 传 给 这 个 函数 ， 它 会 创建 一 个 tuple 的 子 类 ， 其 中 的 元 素 通 过 名 称 获 取 ， 还 
为 调试 提供 了 友好 的 字符 串 表示 形式 (repr). 


有 时 ， 我 觉得 应 该 有 类 似 的 工厂 函数 ， 用 于 创建 可 变 对 象 。 假 设 我 在 编写 一 个 宠物 店 应 用 
程序 ， 我 想 把 狗 的 数据 当 作 简单 的 记录 处 理 。 编 写 下 面 的 样板 代码 让 人 厌烦 : 


class Dog: 
def __init__(self, name, weight, owner): 
self.name = name 
self.weight = weight 
self.owner = owner 


无 趣 …… 各 个 字段 名 称 出 现 了 三 次 。 写 了 这 么 多 样板 代码 ， 其 至 字符 串 表 示 形 式 都 不 友好 : 


>>> rex = Dog('Rex', 30, 'Bob') 
>>> rex 
<__main__.Dog object at 0x2865bac> 


参考 collections.namedtuple， 下 面 我 们 创建 一 个 record_factory 国 数 ， 即 时 创建 简单 的 
类 (如 Dog)。 这 个 函数 的 用 法 如 示例 21-1。 


示例 21-1 测试 record_factory 函数 ， 一 个 简单 的 类 工厂 函数 
>>> Dog = record_factory('Dog', 'name weight owner') @ 
>>> rex = Dog('Rex', 30, 'Bob') 
>>> rex @ 
Dog(name='Rex', weight=30, owner='Bob' ) 
>>> name, weight, _ = rex © 
>>> name, weight 
('Rex', 30) 
>>> "{2}'s dog weighs {1}kg".format(*rex) @ 
"Bob's dog weighs 30kg" 
>>> rex.weight = 32 @ 
>>> rex 
Dog(name='Rex', weight=32, owner='Bob' ) 
>>> Dog.__mro_ QO 
(<class 'factories.Dog'>, <class 'object'>) 


O 这 个 工厂 函数 的 签名 与 namedtuple RU: 先 写 类 名 ， 后 面 跟着 写 在 一 个 字符 串 里 的 多 
个 属性 名 ,使 用 空格 或 喜 号 分 开 。 

O 友好 的 字符 串 表 示 形 式 。 

O 实例 是 可 迭代 的 对 象 ， 因 此 赋值 时 可 以 便利 地 拆 包 。 

© 传 给 format 等 函数 时 也 可 以 拆 包 。 

O 记录 实例 是 可 变 的 对 象 。 

@ 新 建 的 类 继承 自 object， 与 我 们 的 工厂 函数 没有 关系 。 


record_factory 函数 的 代码 在 示例 21-2 中 。? 






























































注 2: 感谢 我 的 朋友 J.S. Bueno 的 建议 。 
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示例 21-2 record_factory.py: 一 个 简单 的 类 工厂 函数 
def record_factory(cls_name, field_names): 
try: 
field_names = field_names.replace(',', ' ').split() @ 
except AttributeError: # 不 能 调用 .replace 或 .split 方 法 
pass # 假定 field_names 本 就 是 标识 符 组 成 的 序列 
field_names = tuple(field_names) @ 


def __init_(self, *args, **kwargs): © 
attrs = dict(zip(self.__slots__, args)) 
attrs.update(kwargs) 
for name, value in attrs.items(): 
setattr(self, name, value) 


def _iter_(self): @ 


for name in self.__slots_: 
yield getattr(self, name) 


def _repr_(self): 日 


values = ', '.join('{}={!r}'.format(*i) for i 
in zip(self.__slots__, self)) 
return '{}({})'.format(self.__class__.__name__, values) 


cls_attrs = dict(__slots__ = field_names, © 


-Anit = _init_, 
_iter__ = _iter_, 
__repr__ = __repr__) 


return type(cls_name, (object,), cls_attrs) @ 


@ 这 里 体现 了 鸭子 类 型 ,尝试 在 去 号 或 空格 处 拆 分 fietd_nanes， 如 果 失败 ， 那 么 假定 
field_nanes 本 就 是 可 透 代 的 对 象 ， 一 个 元 素 对 应 一 个 属性 名 。 

O 使 用 属性 名 构建 元 组 ， 这 将 成 为 新 建 类 的 ”stots_“ 属性， 此 外 ， 这 么 做 还 设 定 了 拆 包 
和 字符 串 表示 形式 中 各 字段 的 顺序 。 

© 这 个 函数 将 成 为 新 建 类 的 “intt 方法。 参数 有 位 置 参 数 和 (或 ) 关键 字 参 数 。 

O 实现 iter 函数 ， 把 类 的 实例 变 成 可 选 代 的 对 象 ， 按 照 _stots_ 设 定 的 顺序 产 出 字 












































段 值 。 
O &4t _slots__ 和 self， 生 成 友好 的 字符 串 表 示 形 式 。 
O 组 建 类 属性 字典 。 





O 调用 type 构造 方法 ， 构 建新 类 ， 然 后 将 其 返回 。 

通常 ， 我 们 把 type 视 作 函 数 ， 因 为 我 们 像 函数 那样 使 用 它 ， 例 如 ， 调 用 type(my_object) 
获取 对 象 所 属 的 类 作用 与 my_object.__class__ 相同 。 然 而 ，type 是 一 个 类 。 当 成 类 
使 用 时 ， 传 入 三 个 参数 可 以 新 建 一 个 类 : 


MyClass = type('MyClass', (MySuperClass, MyMixin), 
{'x': 42, 'x2': lambda self: self.x * 2}) 


type 的 三 个 参数 分 别 是 name, bases 和 dict。 最 后 一 个 参数 是 一 个 映射 ， 指 定 新 类 的 属 
名 和 值 。 上 述 代码 的 作用 与 下 述 代码 相同 ; 








= 


E 
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class MyClass(MySuperClass, MyMixin): 
x = 42 


def x2(self): 
return self.x * 2 


让 人 觉得 新 奇 的 是 ，type 的 实例 是 类 ， 例 如 这 里 的 MyClass 类 或 示例 21-1 中 的 Dog 类 。 


总 之 ， 示 例 21-2 中 record_factory 国 数 的 最 后 一 行 会 构建 一 个 类 ， 类 的 名 称 是 cLs_name 
参数 的 值 ， 唯 一 的 直接 超 类 是 object， 有 _ stots_、__init_、_iter_ 和 _ repr_ 四 
个 类 属性 ， 其 中 后 三 个 是 实例 方法 。 


我 们 本 可 以 把 _slots_ 类 属性 的 名 称 改 成 其 他 值 ， 不 过 要 是 那样 的 话 ， 就 要 实现 
_ setattr 方法 ,为 属性 赋值 时 验证 属性 的 名 称 ， 因 为 对 于 记录 这 样 的 类 ， 我 们 希望 属 
性 始终 是 固定 的 那 几 个 ， 而 且 顺 序 相 同 。 然 而 9.8 iE, slots 属性 的 主要 特色 是 节 
省 内 存 ， 能 处 理 数 百 万 个 实例 ， 不 过 也 有 一 些 缺 点 。 

把 三 个 参数 传 给 type 是 动态 创建 类 的 常用 方式 。 如 果 查 看 cottecttons:nanedtupte 函数 
的 源码 (https://hg.python.org/cpython/file/3.4/Lib/collections/__init__.py#1236), (R & RH 
另 一 种 方式 : 先 声 明 一 个 _class_template 变量 ， 其 值 是 字符 串 形式 的 源码 模板 ， 然 后 在 
namedtuple 国 数 中 调用 _class_template.format(...) 方 法， 填充 模板 里 的 空白 ; 最 后 ， 使 
用 内 置 的 exec 函数 计算 得 到 的 源码 字符 串 。 


在 Python 中 做 元 编程 时 ， 最 好 不 用 exec 和 eval 函数 。 如 果 接 收 的 字符 串 (或 
片段 ) 来 自 不 可 信 的 源 ， 那 么 这 两 个 函数 会 带 来 严重 的 安全 风险 。Python 提 
供 了 充足 的 内 省 工具 ， 大 多 数 时 候 都 不 需要 使 用 exec 和 eval 函数 。 然 而 ， 
Python 核心 开发 者 实现 namedtuple 函数 时 选择 了 使 用 exec 函数 ， 这 样 做 是 
为 了 让 生成 的 类 代码 能 通过 ._source 属性 (https://docs.python.org/3/library/ 


collections.html#collections.somenamedtuple._source ) 获取 。 

















































































































record_factory 国 数 创建 的 类 ， 其 实例 有 个 局 限 不 能 序列 化 ， 即 不 能 使 用 pickle 模 
块 里 的 dump/load 函数 处 理 。 这 个 示例 是 为 了 说 明 如 何 使 用 type 类 满足 简单 的 需求 ， 因 此 

\ 会 解决 这 个 问题 。 如 果 想 了 解 完 整 的 方案 ， 请 分 析 collections.nameduple 函数 的 源码 
(https://hg.python.org/cpython/file/3.4/Lib/collections/__init__.py#1236), 428 “pickling” ix 
个 词 。 


21.2 ”定制 描述 符 的 类 装饰 器 

20.1.3 节 中 的 LineIten 示例 还 有 个 问题 没有 解决 : 储存 属性 的 名 称 不 具有 描述 性 ， 即 属性 
(如 weight) 的 值 存储 在 名 为 Quantity#0 的 实例 属性 中 ， 这 样 的 名 称 有 点 不 便于 调试 。 我 
们 可 以 使 用 下 述 代 码 从 示例 20-7 定义 的 描述 符 中 获取 储存 属性 的 名 称 : 


>>> LineItem.weight.storage_name 
"_Quantity#0' 


可 是 ， 如 有 果 储 存 属性 的 名 称 中 包含 托管 属性 的 名 称 更 好 ， 如 下 所 示 : 
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>>> LineItem.weight.storage_name 
'_Quantity#weight' 


20.1.2 节 说 过 ， 我 们 不 能 使 用 描述 性 的 储存 属性 名 称 ， 因 为 实例 化 描述 符 时 无 法 得 知 托管 属 
性 〈 即 绑 定 到 描述 符 上 的 类 属性 ， 例 如 前 述 示例 中 的 weight) 的 名 称 。 可 是 ， 一 旦 组 建 好 整 
个 类 ,而且 把 描述 符 绑 定 到 类 属性 上 之 后 ， 我 们 就 可 以 审查 类 ， 并 为 描述 符 设置 合理 的 储存 
属性 名 称 。LineIten 类 的 _new_ 方法 可 以 做 到 这 一 点 ， 因 此 ， 在 _init “方法 中 使 用 描述 
符 时 ， 储 存 属性 已 经 设置 了 正确 的 名 称 。 为 了 解决 这 个 问题 而 使 用 new 方法 纯 属 白费 力 
气 : 每 次 新 建 LineIten 实例 时 都 会 运行 new 方法 中 的 逻辑 ， 可 是 ,一旦 LineItenm 类 构 
建 好 了 ， 描 述 符 与 托管 属性 之 间 的 绑 定 就 不 会 变 了 。 因 此 ， 我 们 要 在 创建 类 时 设置 储存 属性 
的 名 称 。 使 用 类 装饰 器 或 元 类 可 以 做 到 这 一 点 。 我 们 首先 使 用 较 简 单 的 方式 。 

类 装饰 器 与 函数 装饰 器 非常 类 似 ， 是 参数 为 类 对 象 的 函数 ， 返 回 原来 的 类 或 修改 后 的 类 。 
在 示例 21-3 中 ， 解 释 器 会 计算 LineIten 类 ， 把 返回 的 类 对 象 传 给 model.entity 国 数 。 
Python 会 把 LineItenm 这 个 全 局 名 称 绑 定 给 model.entity 函数 返回 的 对 象 。 在 这 个 示例 中 ， 
model.entity 函数 会 返回 原先 的 LineItem 类 ， 但 是 会 修改 各 个 描述 符 实例 的 storage_name 
属性 。 

































































示例 21-3 bulkfood_v6.py: 使 用 Quantity 和 NonBlank 描述 符 的 LineIten 类 


import model_v6 as model 


@model.entity @ 

class LineItem: 
description = model.NonBlank() 
weight = model.Quantity() 
price = model.Quantity() 


def __ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


O 这 个 类 唯一 的 变化 是 添加 了 装饰 器 。 


示例 21-4 是 那个 装饰 器 的 实现 。 这 里 只 列 出 了 model_v6.py 脚本 底部 添加 的 新 代码 ， 其 余 
的 代码 与 model_v5.py 脚本 〈 见 示例 20-6) 一 样 。 


示例 21-4 model_v6.py: 一 个 类 装饰 器 
def entity(cls): @ 
for key, attr in cls.__dict__.items(): @ 
if isinstance(attr, Validated): ©@ 
type_name = type(attr).__name__ 
attr.storage_name = '_{}#{}'.format(type_name, key) @ 
return cls © 


O 装饰 器 的 参数 是 一 个 类 。 
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O 友 代 存储 类 属性 的 字典 。 

© 如 果 属 性 是 Validated 描述 符 的 实例 …… 

(4 aa 使 用 描述 符 类 的 名 称 和 托管 属性 的 名 称 命名 storage_name (例如 _NonBlank# 
description) 。 


O 返回 修改 后 的 类 。 


bulkfood_v6.py 脚本 中 的 doctest 证 明 ， 改 动 是 成 功 的 。 例 如 ， 示 例 21-5 展示 了 一 个 
LineIten 实例 中 的 储存 属性 名 称 。 


示例 21-5 bulkfood_v6.py: 描述 符 中 新 storage_name 属性 的 doctest 
>>> raisins = LineItem('Golden raisins', 10, 6.95) 
>>> dir(raisins)[:3] 
['_NonBlank#description', '_Quantity#price', '_Quantity#weight' ] 
>>> LineItem.description.storage_name 
'_NonBlank#description' 
>>> raisins.description 
"Golden raisins' 
>>> getattr(raisins, '_NonBlank#description' ) 
"Golden raisins' 


可 以 看 出 ， 这 并 不 复杂 。 类 装饰 器 能 以 较 简单 的 方式 做 到 以 前 需要 使 用 元 类 去 做 的 事 
情 一 一 创建 类 时 定制 类 。 
类 装饰 器 有 个 重大 缺点 : 只 对 直接 依附 的 类 有 效 。 这 意味 着 ， 被 装饰 的 类 的 子 类 可 能 继承 
也 可 能 不 继承 装饰 器 所 做 的 改动 ， 具 体 情况 视 改动 的 方式 而 定 。 接 下 来 的 几 广 会 探讨 这 个 
问题 ， 并 给 出 解决 方案 。 


21.3 导入 时 和 运行 时 比较 


为 了 正确 地 做 元 编程 ， 你 必须 知道 Python 解释 器 什么 时 候 计 算 各 个 代码 块 。Python 程序 
员 会 区 分 “导入 时 ”和 “运行 时 ”， 不 过 这 两 个 术语 没有 严格 的 定义 ， 而 且 二 者 之 间 存 在 
着 灰色 地 带 。 在 导入 时 ， 解 释 器 会 从 上 到 下 一 次 性 解析 完 .py 模块 的 源码 ， 然 后 生成 用 于 
执行 的 字 节 码 。 如 果 名 法 有 错误 ， 就 在 此 时 报告 。 如 果 本 地 的 _pycache__ 文件 夹 中 有 最 
新 的 pyc 文件 ， 解 释 器 会 跳 过 上 述 步骤 ， 因 为 已 经 有 运行 所 需 的 字 节 码 了 。 


编译 肯定 是 导入 时 的 活动 ， 不 过 那个 时 期 还 会 做 些 其 他 事 ， 因 为 Python 中 的 语句 几乎 都 
是 可 执行 的 ， 也 就 是 说 语句 可 能 会 运行 用 户 代码 ， 修 改 用 户 程序 的 状态 。 尤 其 是 import 
语句 ， 它 不 只 是 声明 *， 在 进程 中 首次 导入 模块 时 ， 还 会 运行 所 导入 模块 中 的 全 部 顶层 代 
码 一 一 以 后 导入 相同 的 模块 则 使 用 缓存 ， 只 做 名 称 绑 定 。 那 些 顶层 代码 可 以 做 任何 事 ， 包 
括 通常 在 “运行 时 ”做 的 事 ， 例 如 连接 数据 库 。 因此 ,“ 导 入 时 ”与 “运行 时 ”之 间 的 界 
线 是 模糊 的 ，import 语句 可 以 触发 任何 “运行 时 ”行为 。 

在 前 一 段 中 我 写 道 ， 导 入 时 会 “运行 全 部 顶层 代码 ”， 但 是 “顶层 代码 ”会 经 过 一 些 加 工 。 
导入 模块 时 ， 解 释 器 会 执行 顶层 的 def 语句 ， 可 是 这 么 做 有 什么 作用 呢 ? 解释 器 会 编译 函 
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注 3: Java 中 的 import 语句 则 只 是 声明 ， 用 于 告知 编译 器 需要 特定 的 包 。 
注 4: 我 不 是 说 导入 模块 时 应 该 连接 数据 库 ， 只 是 指出 来 可 以 做 到 。 
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数 的 定义 体 〈 首 次 导入 模块 时 )， 把 函数 对 象 绑 定 到 对 应 的 全 局 名 称 上 ， 但 是 显然 解释 器 
` 会 执行 函数 的 定义 体 。 通 常 这 意味 着 解释 器 在 导入 时 定义 顶层 函数 ， 但 是 仅 当 在 运行 时 
调用 函数 时 才 会 执行 函数 的 定义 体 。 

对 类 来 说 ， 情 况 就 不 同 了 : 在 导入 时 ， 解 释 器 会 执行 每 个 类 的 定义 体 ， 其 至 会 执行 幅 套 类 
的 定义 体 。 执 行 类 定义 体 的 结果 是 ， 定 义 了 类 的 属性 和 方法 ， 并 构建 了 类 对 象 。 从 这 个 意 
义 上 理解 ， 类 的 定义 体 属 于 “顶层 代码 ”， 因 为 它 在 导入 时 运行 。 

上 述说 明 模糊 又 抽象 ， 下 面 通过 练习 理解 各 个 时 期 所 做 的 事情 。 


理解 计算 时 间 的 练习 


假设 在 evaltime.py 脚本 中 导入 了 evalsupport.py 模块 。 这 两 个 模块 调用 了 几 次 print 函数 ， 打 
Ell <[N]> 格式 的 标记 ， 其 中 N 是 数字 。 下 述 两 个 练习 的 目标 是 ， 确 定 各 个 调用 在 何 时 执行 。 

















据 我 的 学 生 说 ， 这 两 个 练习 有 助 于 更 好 地 理解 Python 计算 源码 的 方式 。 在 查 
看 场景 1 的 解答 之 前 ， 请 一 定 要 拿 出 纸 和 笔 ， 花 点 时 间作 答 。 





那 两 个 模块 的 代码 在 示例 21-6 和 示例 21-7 中 。 先 别 运 行 代码 ， 拿 出 纸 和 笔 ， 按 顺序 写 出 
下 述 两 个 场景 输出 的 标记 。 

场景 1 

在 Python 控制 台中 以 交互 的 方式 导入 evaltime.py 模块 : 


>> import evaltime 








场景 


2 
在 命令 行 中 运行 evaltime.py 模块 : 





$ python3 evaltime.py 


示例 21-6 evaltime.py: 按 顺 序 写 出 输出 的 序号 标记 <[N]> 


from evalsupport import deco_alpha 


print('<[1]> evaltime module start') 


class ClassOne(): 
print('<[2]> ClassOne body') 


def _ init__(self): 
print('<[3]> ClassOne.__init__') 


def _ del__(self): 
print('<[4]> ClassOne.__del__') 
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def method_x(self): 
print('<[5]> ClassOne.method_x') 


class ClassTwo(object): 
print('<[6]> ClassTwo body') 


@deco_alpha 
class ClassThree(): 
print('<[7]> ClassThree body') 


def method_y(self): 
print('<[8]> ClassThree.method_y') 


class ClassFour(ClassThree): 
print('<[9]> ClassFour body') 


def method_y(self): 
print('<[10]> ClassFour.method_y') 


if _name == '_ main_': 
print('<[11]> ClassOne tests', 30 * '.') 
one = ClassOne() 
one.method_x() 
print('<[12]> ClassThree tests', 30 * '.') 
three = ClassThree() 
three.method_y() 
print('<[13]> ClassFour tests', 30 * '.') 
four = ClassFour() 
four.method_y() 


print('<[14]> evaltime module end') 


示例 21-7 evalsupport.py: evaltime.py 导入 的 模块 
print('<[100]> evalsupport module start') 


def deco_alpha(cls): 
print('<[200]> deco_alpha' ) 


def inner_1(self): 
print('<[300]> deco_alpha:inner_1') 


cls.method_y = inner_1 
return cls 


class MetaAleph(type): 
print('<[400]> MetaAleph body') 


def __init__(cls, name, bases, dic): 
print('<[500]> MetaAleph.__init__') 
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def inner_2(self): 
print('<[600]> MetaAleph.__init__:inner_2') 


cls.method_z = inner_2 


print('<[700]> evalsupport module end') 


1. 场景 1 的 解答 


在 Python 控制 台中 导入 evaltime.py 模块 后 得 到 的 输出 如 示例 21-8 所 示 。 





示例 21-8 场景 1: 在 Python 控制 台中 导入 evaltime 模块 
>>> import evaltime 
<[100]> evalsupport module start @ 
<[400]> MetaAleph body @ 
<[700]> evalsupport module end 
<[1]> evaltime module start 
<[2]> ClassOne body © 
<[6]> ClassTwo body @ 
<[7]> ClassThree body 
<[200]> deco_alpha @ 
<[9]> ClassFour body 
<[14]> evaltime module end O 


@ evalsupport 模块 中 的 所 有 顶层 代码 在 导入 模块 时 运行 ， 解 和 





数 ， 但 是 不 会 执行 定义 体 。 
@ MetaAleph 类 的 定义 体 运行 了 。 
© 每 个 类 的 定义 体 都 执行 了 …… 
Qee UREI., 


O 先 计 算 被 装饰 的 类 ClassThree 的 定义 体 ， 然 后 运行 装饰 器 函数 。 
O 在 这 个 场景 中 ，evaltinme 模块 是 导入 的 ， 因 此 不 会 运行 if _name_ == 

















对 于 场景 1， 要 注意 以 下 几 点 。 


(1) 这 个 场景 由 简单 的 import evaltime 语句 触发 。 








(2) 解释 器 会 执行 所 导入 模块 及 其 依赖 (evalsupport) 中 的 每 个 类 定义 体 。 








main 


器 会 编译 deco_alpha pK 


"ik, 





(3) 解释 器 先 计算 类 的 定义 体 ， 然 后 调用 依附 在 类 上 的 装饰 器 函数 ， 这 是 合理 的 行为 ， 因 为 


必须 先 构建 类 对 象 ， 装 饰 器 才 有 类 对 象 可 处 理 。 
(4) 在 这 个 场景 中 ， 只 运行 了 一 个 用 户 定义 的 函数 或 方法 


下 面 来 看 场景 2。 


2. 场景 2 的 解答 
运行 python3 evaltime.py 命令 后 得 到 的 输出 如 示例 21-9 所 示 。 


























示例 21-9 场景 2: 在 shell 中 运行 evaltime.py 
$ python3 evaltime.py 
<[100]> evalsupport module start 
<[400]> MetaAleph body 
<[700]> evalsupport module end 
<[1]> evaltime module start 


deco_alpha 装饰 器 。 
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<[2]> ClassOne body 

<[6]> ClassTwo body 

<[7]> ClassThree body 

<[200]> deco_alpha 

<[9]> ClassFour body @ 

<[1l]>-ClassOne tests: ioe caine rim kee wows 
<[3]> ClassOne.__init_. @ 

<[5]> ClassOne.method_x 

<[12]> ClassThree tests oe ee a a en pe EER SA 
<[300]> deco_alpha:inner_1 © 

<[13]> ClassFour teStS ..... ccc cece eee iaki ee eeeee 
<[10]> ClassFour.method_y 

<[14]> evaltime module end 

<[4]> ClassOne.__del__ @ 


O 目前 为 止 ， 输 出 与 示例 21-8 相同 。 

O 类 的 标准 行为 。 

© deco_alpha 装饰 器 修改 了 ClassThree.method_y 方法 ， 因 此 调用 three.method_y() 时 会 
运行 inner_1 国 数 的 定义 体 。 

O 只 有 程序 结束 时 ， 绑 定 在 全 局 变量 one 上 的 ClassOne 实例 才 会 被 垃圾 回收 程序 回收 。 

场景 2 主要 想 说 明 的 是 ， 类 装饰 器 可 能 对 子 类 没有 影响 。 在 示例 21-6 中 ， 我 们 把 

ClassFour 定义 为 ClassThree 的 子 类 。ClassThree 类 上 依附 的 @deco_alpha 装饰 器 把 

method_y 方法 替换 掉 了 ， 但 是 这 对 ClassFour 类 根本 没有 影响 。 当 然 ， 如 果 ClassFour. 

method_y 方法 使 用 super(...) 调用 ClassThree.method_y 方法 ， 我 们 便 会 看 到 装饰 器 起 作 

用 ， 执 行 inner_1 函数 。 


与 此 不 同 的 是 ， 如 有 果 想 定制 整个 类 层次 结构 ， 而 不 是 一 次 只 定制 一 个 类 ,使 用 下 一 市 介绍 
的 元 类 更 高 效 。 


21.4 元 类 基础 知识 


元 类 是 制造 类 的 工厂 ， 不 过 不 是 函数 (如 示例 21-2 中 的 record_factory)， 而 是 类 。 图 
21-1 使 用 机 器 和 小 怪兽 图 示 法 描述 元 类 ， 可 以 看 出 ， 元 类 是 生产 机 器 的 机 器 


AGN 





回 
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21-1: 元 类 是 用 于 构建 类 的 类 
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根据 Python 对 象 模型 ， 类 是 对 象 ， 因 此 类 肯定 是 另外 某 个 类 的 实例 。 默 认 情况 下 ，Python 
中 的 类 是 type 类 的 实例 。 也 就 是 说 ，type 是 大 多 数 内 置 的 类 和 用 户 定义 的 类 的 元 类 : 


>>> 'spam'.__class_ 

<class 'str'> 

>>> str.__class__ 

<class 'type'> 

>>> from bulkfood_v6 import LineItem 
>>> LineItem.__class__ 

<class 'type'> 

>>> type.__class__ 

<class 'type'> 


为 了 避免 无 限 回调 ，type 是 其 自身 的 实例 ， 如 最 后 一 行 所 示 。 


意 ， 我 没有 说 str 或 LineItem 继承 自 type。 我 的 意思 是 ，str 和 LineItem 是 type 的 实 
这 两 个 类 是 object 的 子 类 。 图 21-2 可 能 有 助 于 你 理 清 这 个 奇怪 的 现象 。 








«metaclass» 


type 





1 1 \ 
«instance of» / \ «instance of» 
1 





\ 


21-2: 两 个 示意 意图 都 是 正确 的 。 左 边 的 示意 图 强调 str、type 和 LineItem 是 object 的 子 类 。 右 
边 的 示意 图 则 清楚 地 表明 str, object 和 LineIten 是 type 的 实例 ， 因 为 它们 都 是 类 














object 类 和 type 类 之 间 的 关系 很 独特 : object 是 type 的 实例 ， 而 type 是 
object 的 子 类 。 这 种 关系 很 “神奇 "， 无 法 使 用 Python 代码 表述 ， 因 为 定义 其 
中 一 个 之 前 另 一 个 必须 存在 。type 是 自身 的 实例 这 一 点 也 很 神奇 。 











除了 type， 标 准 库 中 还 有 一 些 别 的 元 类 ， 例 如 ABCMeta 和 Enum。 如 下 述 代 码 片 段 所 示 ， 
collections.Iterable 所 属 的 类 是 abc. ABCMeta, Iterable 是 抽象 类 ， 而 ABCMeta 不 是 一 一 
不 管 怎样 ，IterabtLe 是 ABCMeta 的 实例 : 





>>> import collections 

>>> collections.Iterable. class_ 
<class 'abc.ABCMeta'> 

>>> import abc 

>>> abc.ABCMeta.__class__ 

<class 'type'> 





ay 
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>>> abc.ABCMeta.__mro__ 
(<class 'abc.ABCMeta'>, <class 'type'>, <class 'object'>) 


向 上 追 斋 ，ABCMeta 最 终 所 属 的 类 也 是 type。 所 有 类 都 直接 或 间接 地 是 type 的 实例 ， 不 
过 只 有 元 类 同时 也 是 type 的 子 类 。 若 想 理解 元 类 ， 一 定 要 知道 这 种 关系 : 元 类 (如 
ABCMeta) 从 type 类 继承 了 构建 类 的 能 力 。 图 21-3 对 这 种 至 关 重 要 的 关系 做 了 图 解 。 


«metaclass» 
type 


. 7 
«instance of» i 


































«subclass of» 


«subclass of» 


Iterable 











21-3; Iterable 是 object 的 子 类 ， 是 ABCMeta 的 实例 。object 和 ABCMeta 都 是 type 的 实例 ， 但 
是 这 里 的 重要 关系 是 ，ABCMeta 还 是 type 的 子 类 ， 因 为 ABCMeta 是 元 类 。 示 意图 中 只 
Iterable 是 抽象 类 


我 们 要 抓 住 的 重点 是 ， 所 有 类 都 是 type 的 实例 ， 但 是 元 类 还 是 type 的 子 类 ， 因 此 可 以 作 
为 制造 类 的 工厂 。 具 体 来 说 ， 元 类 可 以 通过 实现 _init ”方法 定制 实例 。 元 类 的 init 
方法 可 以 做 到 类 装饰 器 能 做 的 任何 事情 ， 但 是 作用 更 大 ， 如 接 下 来 的 练习 所 示 。 


理解 元 类 计算 时 间 的 练习 
我 们 对 21.3 节 的 练习 做 些 改动 ，evalsupport.py 模块 与 示例 21-7 一 样 ， 不 过 现在 主 脚 本 变 
成 evaltime_meta.py 了 ， 如 示例 21-10 所 示 。 





示例 21-10 evaltime_meta.py: ClassFive 是 MetaAleph 元 类 的 实例 
from evalsupport import deco_alpha 
from evalsupport import MetaAleph 


print('<[1]> evaltime_meta module start') 
@deco_alpha 
class ClassThree(): 


print('<[2]> ClassThree body') 


def method_y(self): 
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print('<[3]> ClassThree.method_y') 


class ClassFour(ClassThree): 
print('<[4]> ClassFour body') 


def method_y(self): 
print('<[5]> ClassFour.method_y') 


class ClassFive(metaclass=MetaAleph): 
print('<[6]> ClassFive body') 


def _ init__(self): 
print('<[7]> ClassFive.__init__') 


def method_z(self): 
print('<[8]> ClassFive.method_z') 


class ClassSix(ClassFive): 
print('<[9]> ClassSix body') 


def method_z(self): 
print('<[10]> ClassSix.method_z') 


1 1 


if _ name == '_ main_': 
print('<[11]> ClassThree tests', 30 * '.') 
three = ClassThree() 
three.method_y() 
print('<[12]> ClassFour tests', 30 * '.') 
four = ClassFour() 
four.method_y() 
print('<[13]> ClassFive tests', 30 * '.') 
five = ClassFive() 
five.method_z() 
print('<[14]> ClassSix tests', 30 * '.') 
six = ClassSix() 
six.method_z() 


print('<[15]> evaltime_meta module end') 
同样 ， 请 拿 出 纸 和 笔 ， 按 顺序 写 出 下 述 两 个 场景 中 输出 的 序号 标记 <[N]>。 
场景 3 
在 Python 控制 台中 以 交互 的 方式 导入 evaltime_meta.py 模块 。 
4 











场 


ae 





在 命令 行 中 运行 evaltime_meta.py 模块 。 
解答 和 分 析 如 下 。 





1. 场景 3 的 解答 
在 Python 控制 台中 导入 evaltime_meta.py 模块 后 得 到 的 输出 如 示例 21-11 所 示 。 





示例 21-11 场景 3: 在 Python 控制 台中 导入 evaltime_meta 模块 
>>> import evaltime_meta 
<[100]> evalsupport module start 
<[400]> MetaAleph body 
<[700]> evalsupport module end 
<[1]> evaltime_meta module start 
<[2]> ClassThree body 
<[200]> deco_alpha 
<[4]> ClassFour body 
<[6]> ClassFive body 
<[500]> MetaAleph.__init__ @ 
<[9]> ClassSix body 
<[500]> MetaAleph.__init_. @ 
<[15]> evaltime_meta module end 


O 与 场景 1 的 关键 区 别 是 ， 创 建 ClassFive 时 调用 了 MetaAleph.__init__ Wy, 
@ 创建 ClassFive 的 子 类 ClassSix 时 也 调用 了 MetaALeph._init 方法 。 


Python 解释 器 计算 ClassFive 类 的 定义 体 时 没有 调用 type 构建 具体 的 类 定义 体 ， 而 是 调用 
MetaAleph 类 。 看 一 下 示例 21-12 中 定义 的 MetaAleph 类 ， 你 会 发 现 _init “方法 有 四 个 参数 。 


self 
这 是 要 初始 化 的 类 对 象 (例如 ClassFive) 。 
name, bases, dic 


与 构建 类 时 传 给 type 的 参数 一 样 。 











示例 21-12 evalsupport.py: 定义 MetaAleph 元 类 ， 摘自 示 例 21-7 
class MetaAleph(type): 
print('<[400]> MetaAleph body') 


def __init__(cls, name, bases, dic): 
print('<[500]> MetaAleph.__init__') 


def inner_2(self): 
print('<[600]> MetaAleph.__init__:inner_2') 


cls.method_z = inner_2 


编写 元 类 时 ， 通 常会 把 self 参数 改 成 cLs。 例 如 ， 在 上 述 元 类 的 _init Y 
法 中 ， 把 第 一 个 参数 命名 为 cls 能 清楚 地 表明 要 构建 的 实例 是 类 。 











_init 方法 的 定义 体 中 定义 了 inner_2 国 数 ， 然 后 将 其 绑 定 给 cls.method_z。MetaAleph. 
_init 方法 签名 中 的 cls 指 代 要 创建 的 类 (例如 ClassFive)。 而 inner_2 函数 签名 中 的 
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self 最 终 是 指 代 我 们 在 创建 的 类 的 实例 (例如 ClassFive 类 的 实例 )。 


2. 场景 4 的 解答 
在 命令 行 中 运行 python3 evaltime_meta.py 命令 后 得 到 的 输出 如 示例 21-13 所 示 。 





示例 21-13 场景 4: 在 shell 中 运行 evaltime_meta.py 
$ python3 evaltime_meta.py 
<[100]> evalsupport module start 
<[400]> MetaAleph body 
<[700]> evalsupport module end 
<[1]> evaltime meta module start 
<[2]> ClassThree body 
<[200]> deco_alpha 
<[4]> ClassFour body 
<[6]> ClassFive body 
<[500]> MetaAleph._ init _ 
<[9]> ClassSix body 
<[500]> MetaAleph.__init_ 
<[11]> CUassThree. tests: woo nor do oi as 
<[300]> deco_alpha:inner_1 @ 
<[12]> ClassFour tests ..... ccc cece cece eee e eee eeee 
<[5]> ClassFour.method_y @ 
<[13]> ClassFive tests Sw poe cece cee ND a Naat 
<[7]> ClassFive._init__ 
<[600]> MetaAleph.__init__:inner_2 © 
<[14]> C lLASSSUX TESTS Sev ek n apetremneve 
<[7]> ClassFive. init _ 
<[600]> MetaAleph.__init__:inner_2 @ 
<[15]> evaltime_meta module end 


O 装饰 器 依附 到 ClassThree 类 上 之 后 ，method_y 方法 被 替换 成 inner_1 方法 …… 

@ 虽然 ClassFour 是 ClassThree 的 子 类 ， 但 是 没有 依附 装饰 器 的 ClassFour 类 却 不 受 影响 。 
© MetaAleph 类 的 _init 方法 把 CLassFive.method_z 方法 替换 成 inner_2 国 数 。 

© ClassFive 的 子 类 ClassSix 也 是 一 样 ，method_z 方法 被 奉 换 成 inner_2 函数 。 


TER, ClassSix 类 没有 直接 引用 MetaAleph 类 ， 但 是 却 受 到 了 影响 ， 因 为 它 是 ClassFive 
的 子 类 ， 进 而 也 是 MetaAleph 类 的 实例 ， 所 以 由 MetaAleph.__init_ 方法 初始 化 。 








如 果 想 进一步 定制 类 ， 可 以 在 元 类 中 实现 _new_ 方 法。 不过， 通常 情况 下 实 
现 _init 方法 就 够 了 。 


现在 ,我 们 可 以 实践 这 些 理论 了 。 我 们 将 创建 一 个 元 类 ， 让 描述 符 以 最 佳 的 方式 自动 创建 
储存 属性 的 名 称 。 


cs ts Fe — sjy 
21.5 定制 描述 符 的 元 类 
回 到 LineItem 系列 示例 。 如 果 用 户 完 全 不 用 知道 描述 符 或 元 类 ， 直 接 继承 库 提供 的 类 就 能 
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满足 需求 ， 那 该 多 好 。 如 示例 21-14 所 示 。 


示例 21-14 bulkfood_v7.py: 有 元 类 的 支持 ， 继 承 model.Entity 类 即 可 


import model_v7 as model 


class LineItem(model.Entity): @ 
description = model.NonBlank() 
weight = model.Quantity() 
price = model.Quantity() 


def __ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ LinelItem 是 model. Entity 的 子 类 。 


示例 21-14 理解 起 来 相当 容易 ， 毕 竞 根 本 没有 奇怪 的 句法 。 可 是 ，model_v7.py 模块 必须 定 
义 一 个 元 类 ， 而 且 model.Entity 类 是 那个 元 类 的 实例 。model_v7.py 模块 中 实现 的 Entity 
类 如 示例 21-15 所 示 。 








示例 21-15 model_v7.py: EntityMeta 元 类 以 及 它 的 一 个 实例 Entity 
class EntityMeta(type): 
""" 元 类 ,用 于 创建 带 有 验证 字段 的 业务 实体 """ 





def _init_ (cls, name, bases, attr_dict): 
super().__init__(name, bases, attr_dict) @ 
for key, attr in attr_dict.items(): @ 
if isinstance(attr, Validated): 
type_name = type(attr).__name__ 
attr.storage_name = '_{}#{}'.format(type_name, key) 


class Entity(metaclass=EntityMeta): © 
""" 带 有 验证 字段 的 业务 实体 """ 
O 在 超 类 (在 这 里 是 type) 上 调用 _init 方法 。 
© 与 示例 21-4 中 @entity 装饰 器 的 逻辑 一 样 。 
O 这 个 类 的 存在 只 是 为 了 用 起 来 便利 : 这 个 模块 的 用 户 直接 继承 Entity 类 即 可 ， 无 需 关 
心 EntityMeta 元 类 ， 甚 至 不 用 知道 它 的 存在 。 


示例 21-14 中 的 代码 能 通过 示例 21-3 中 的 测试 。 辅 助 模块 model_v7.py 比 model_v6.py 难 
理解 ， 但 是 用 户 级 别 的 代码 更 简单 : 只 需 继承 model_v7.Entity 类 ，Validated 字段 就 能 自 
动 获得 储存 属性 的 名 称 。 

图 21-4 使 用 简单 的 图 示 说 明了 我 们 刚刚 实现 的 逻辑 。 虽 然 有 很 多 复杂 的 逻辑 ， 但 都 隐藏 在 
model_v7 模块 中 。 从 用 户 的 角度 来 看 ， 示 例 21-14 中 的 LineItem 只 是 Entity 的 子 类 。 这 
就 是 抽象 的 作用 。 
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21-4: 使 用 机 器 和 小 怪兽 图 示 法 (MGN) 注解 的 UML 类 图 。EntityMeta 元 机 器 用 于 生产 
LineItem 机 器 。 描 述 符 (如 weight 和 price) 由 EntityMeta. init 方法 配置 。 注 意 
model_v7 模块 的 边界 


除了 把 类 链接 到 元 类 上 的 句法 之 外 ， 目 前 编写 元 类 使 用 的 句法 在 Python 2.2 (这 个 版 本 对 
Python 类 型 做 了 重大 改造 ) 之 后 都 能 使 用 。 下 一 节 介 绍 一 个 只 能 在 Python 3 中 使 用 的 功能 。 


21.6 元 类 的 特殊 方法 __prepare__ 


在 某 些 应 用 中 ， 可 能 需要 知道 类 的 属性 定义 的 顺序 。 例 如 ， 对 读 写 CSV 文件 的 库 来 说 ， 
用 户 定义 的 类 可 能 想 把 类 中 按 顺序 声明 的 字段 与 CSV 文件 中 各 列 的 顺序 对 应 起 来 。 


如 前 所 述 ，type 构造 方法 及 元 类 的 _new_ 和 __init 方法 都 会 收 到 要 计算 的 类 的 定义 
体 ， 形 式 是 名 称 到 属性 的 映像 。 然 而 在 默认 情况 下 ， 那 个 映射 是 字典 ， 也 就 是 说 ， 元 类 或 
类 装饰 妖 获得 映射 时 ， 属 性 在 类 定义 体 中 的 顺序 已 经 丢失 了 。 


这 个 问题 的 解决 办 法 是 ， 使 用 Python 3 引入 的 特殊 方法 _prepare”。 这 个 特殊 方法 只 在 
元 类 中 有 用 ， 而 且 必须 声明 为 类 方法 ( 即 ， 要 使 用 @classmethod 装饰 器 定义 )。 解 释 器 调 
用 元 类 的 _new “方法 之 前 会 先 调用 __prepare__ 方法 ,使 用 类 定义 体 中 的 属性 创建 映射 。 
__prepare__ 方 法 的 第 一 个 参数 是 元 类 ， 随 后 两 个 参数 分 别 是 要 构建 的 类 的 名 称 和 基 类 组 
成 的 元 组 ， 返 回 值 必 须 是 映射 。 元 类 构建 新 类 时 ，__prepare_ 方法 返回 的 上 映射 会 传 给 
__new__ 方 法 的 最 后 一 个 参数 ， 然 后 再 传 给 _init__ 方 法。 


理论 听 起 来 很 复杂 ， 但 是 我 见 过 的 _prepare_ 方法 都 十 分 简单 。 请 看 示例 21-16。 



































Ne 














注 5; 11.7.1 节 说 过 , Python 2.7 使 用 的 是 _metaclass_ 类 属性 , 类 的 声明 体 不 支持 metaclass= 关键 字 参 数 。 
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示例 21-16 model_v8.py: 这 一 版 EntityMeta 元 类 用 到 了 _prepare_ 方法， 而且 为 
Entity 类 定义 了 field_names 类 方法 


class EntityMeta(type): 





用 于 创建 带 有 验证 字段 的 业务 实体 """ 


@classmethod 
def __prepare__(cls, name, bases): 
return collections.OrderedDict() @ 


def _ init_ (cls, name, bases, attr_dict): 
super().__init__(name, bases, attr_dict) 


cls. 


for 


_field_names = [] 

key, attr in attr_dict.items(): © 

if isinstance(attr, Validated): 
type_name = type(attr).__name__ 
attr.storage_name = '_{}#{}'.format(type_name, key) 
cls._field_names.append(key) @ 


class Entity(metaclass=EntityMeta): 
""" 带 有 验证 字段 的 业务 实体 """ 








@classmethod 
def field_names(cls): 日 


for 


@ 返回 一 个 空 的 


name in cls._field_names: 
yield name 


OrderedDict 实例 ， 类 属性 将 存储 在 里 面 。 














(2) ys 建 一 个 _field_names 属性 。 
© 这 一 行 与 前 一 版 相 比 没有 变化 ， 不 过 这 里 的 attr_dict 是 那个 orderedDict 对 象 ， 由 解 


释 器 在 调用 
照 添加 属性 的 
@ 把 找到 的 各 个 








_init_ 方法 之 前 调用 __prepare__ 方法 时 获得 。 因 此 ， 这 个 for 循环 会 按 
顺序 迭代 属性 。 





Validated 字段 添加 到 _field_names 属性 中 。 








© field_names 类 方法 的 作用 简单 : 按照 添加 字段 的 顺序 产 出 字段 的 名 称 。 


像 示 例 21-16 BB 


添加 一 些 简单 的 代码 之 后 ， 我 们 可 以 使 用 field_names 类 方法 达 代 任何 





Entity 子 类 的 Validated 字段 。 示 例 21-17 演示 了 这 个 新 功能 。 


示例 21-17 bulkfood_v8.py: 展示 field_names 用 法 的 doctest 





无 需 修改 LtneItem 类 ， 


field_names 方法 继承 自 model.Entity 类 


>>> for name in LineItem.field_names(): 
print(name) 


description 
weight 
price 


对 元 类 的 介绍 到 此 结束 。 在 现实 世界 中 ， 框 架 和 库 会 使 用 元 类 协助 程序 员 执行 很 多 任务 ， 


例如 : 
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。 验证 属性 

。 一 次 把 装饰 器 依附 到 多 个 方法 上 

。 序列 化 对 象 或 转换 数据 

。 对 象 关系 映射 

。 基于 对 象 的 持久 存储 

。 动态 转换 使 用 其 他 语言 编写 的 类 结构 


下 一 节 将 概述 Python 数据 模型 为 所 有 类 定义 的 方法 。 


21.7 类 作为 对 和 象 


Python 数据 模型 为 每 个 类 定义 了 很 多 属性 ， 参 见 标 准 库 参 考 中 “Built-in Types” 一 章 的 
“4.13. Special Attributes” 一 节 (https://docs.python.org/3/library/stdtypes.html#special-attributes) 。 
其 中 三 个 属性 在 本 书 中 已 经 见 过 多 次 : _mro_ 、_ class 和 _nane_。 此 外 ， 还 有 以 下 
属性 。 
CLs. bases 
由 类 的 基 类 组 成 的 元 组 。 
cls.__qualname__ 
Python 3.3 新 引入 的 属性 ， 甚 值 是 类 或 国 数 的 限定 名 称 ， 即 从 模块 的 全 局 作用 域 到 类 的 
点 分 路 径 。 例 如 ， 在 示例 21-6 中 ， 内 部 类 ClassTwo 的 _qualname_ 属性， 甚 值 是 字符 


串 'CLassone.CLassTwo'， 而 _name _ 属性 的 值 是 'ClassTwo' 。 这 个 属性 的 规范 是 “PEP 
3155— Qualified name for classes and functions” (https://www.python.org/dev/peps/pep-3155/) 。 























cls.__subclasses__() 
这 个 方法 返回 一 个 列表 ， 包 含 类 的 直接 子 类 。 这 个 方法 的 实现 使 用 弱 引 用 ， 防 止 在 超 类 
和 子 类 (TAE __bases__ 属性 中 储存 指向 超 类 的 强 引 用 ) 之 间 出 现 循环 引用 。 这 个 方 
法 返回 的 列表 中 是 内 存 里 现存 的 子 类 。 

cls.mro() 


构建 类 时 ， 如 果 需 要 获取 储存 在 类 属性 mro 中 的 超 类 元 组 ， 解 释 器 会 调用 这 个 方 
法 。 元 类 可 以 覆盖 这 个 方法 ， 定 制 要 构建 的 类 解析 方法 的 顺序 。 








dir(...) 函数 不 会 列 出 本 布 提 到 的 任何 一 个 属性 。 


我 们 对 类 元 编程 的 学 习 到 此 结束 。 这 是 个 很 大 的 话题 ， 我 只 讲 了 皮毛 。 因 此 ， 本 书 各 章 都 
有 “延伸 阅读 ”一 市 。 


























556 | 第 21 章 


21.8 ”本章 小 结 


类 元 编程 是 指 动态 创建 或 定制 类 。 在 Python 中 ， 类 是 一 等 对 象 ， 因 此 本 章 首 先 说 明 如 何 通 
过 调用 内 置 的 type 元 类 ， 使 用 函数 创建 类 。 
接 下 来 的 一 布 继续 讨 论 第 20 章 使 用 描述 符 实现 的 LineIten 类 ， 解 决 一 个 遗留 问 
题 : 如何 让 生成 的 储存 属性 名 中 包含 托管 属性 的 名 称 ( 例 如， 把 _Quantity#1 变 成 
_Quantity#price)。 解 决 办 法 是 使 用 类 装饰 器 。 说 到 底 ， 类 装饰 器 是 函数 ， 其 参数 是 被 装 
饰 的 类 ， 用 于 审查 和 修改 刚 创建 的 类 ， 其 至 替换 成 其 他 类 。 
然后 ， 本 章 讨论 了 模块 中 不 同 部 分 的 代码 何 时 运行 。 我 们 发 现 ， 所 谓 的 “导入 时 ”和 “ 运 
行 时 ”之 间 有 重合 ， 不 过 很 明显 ，import 语句 会 触发 运行 大 量 代 码 。 知 道 代码 何 时 运行 至 
关 重 要 ， 可 是 有 些 规则 难以 捉摸 ， 因 此 我 们 通过 两 个 计算 时 间 练 习 对 此 做 了 说 明 。 
接 下 来 ， 本 章 介绍 了 元 类 。 我 们 得 知 ， 所 有 类 都 直接 或 间接 地 是 type 的 实例 ， 因 此 在 Python 
中 ，type 是 “ 根 元 类 ”。 然 后 ， 我 们 对 之 前 的 计算 时 间 练 习 做 了 修改 ， 以 此 说 明 元 类 可 以 定制 
类 的 层次 结构 。 类 装饰 器 则 不 同 ， 它 只 能 影响 一 个 类 ， 而 且 对 后 代 可 能 没有 影响 。 
随后 ， 我 们 实际 使 用 元 类 ， 解 决 Liner tem 类 中 储存 属性 的 命名 问题 。 最 终 写 出 的 代码 比 
类 装饰 器 难 懂 一 些 ， 不 过 可 以 封装 在 一 个 模块 里 ， 这 样 用户 只 需 继承 看 似 普通 的 一 个 类 
(model.Entity)， 而 不 用 知道 它 是 元 类 (model.EntityMeta) 的 实例 。 这 种 处 理 方式 让 人 想 
起 了 Django 和 SQLAIchemy 的 ORM API: 使 用 元 类 实现 ， 用 户 却 根本 无 需 知道 。 
我 们 实现 的 第 二 个 元 类 为 model.EntityMeta 类 添加 了 一 个 小 功能 : 定义 prepare ”方法 ， 
返回 一 个 OrderedDict 对 象 ， 用 于 储存 名 称 到 属性 的 映射 。 这 样 做 能 保留 要 构建 的 类 在 定义 
体 中 绑 定 属性 的 顺序 ， 提 供给 元 类 的 new 和 __init_ 等 方法 使 用 。 在 这 个 示例 中 ,我 
们 定义 了 类 属性 _field_names， 因 此 用 户 可 以 使 用 Entity.field_names() 方法 以 Validated 
描述 符 出 现在 源码 中 的 顺序 获取 描述 符 。 
最 后 一 节 ， 我 们 概述 了 Python 为 所 有 类 提供 的 属性 和 方法 。 
元 类 是 充满 挑战 、 让 人 兴奋 的 功能 ， 有 时 会 被 故 作 聪明 的 程序 员 小 用。 最 后 ， 我 们 回顾 一 
下 Alex Martelli 在 他 写 的 “水 例 和 抽象 基 类 ”一 文 的 最 后 给 我 们 的 建议 : 

此 外 ， 不 要 在 生产 代码 中 定义 抽象 基 类 (或 元 类 ) …… 如 果 你 很 想 这 样 做 ， 我 打赌 

可 能 是 因为 你 想 “ 找 茬 ” ， 刚 拿 到 新 工具 的 人 都 有 大 干 一 场 的 冲动 。 如 果 你 能 避 开 这 

些 深 奥 的 概念 ， 你 (以 及 未 来 的 代码 维护 者 ) 的 生活 将 更 愉快 ， 因 为 代码 简洁 明了 。 
Alex Martelli 
说 出 上 述 至 理 名 言 的 人 不 仅 是 Python TEKIH, EATER ER ET Ben, TLE 
上 几 个 最 重要 的 Python 应 用 。 


21.9 延伸 阅读 


为 了 深入 学 习 本 章 所 述 的 知识 ， 一 定 要 阅读 Python 语言 参考 手册 中 “Data Model” 一 章 
里 的 “3.3.3. Customizing class creation” 一 节 (https://docs.python.org/3/reference/datamodel. 
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html#metaclasses), “Built-in Functions” 一 章 中 type 类 的 文档 (https://docs.python.org/3/ 
library/functions.html#type), ， 以 及 标准 库 参 考 中 “Built-in Types” 一 章 里 的 “4.13. Special 
Attributes” 一 节 (https://docs.python.org/3/library/stdtypes.html#special-attributes)。 此 外， 在 标 
准 库 参 考 中 ，types 模块 的 文档 (https://docs.python.org/3/library/types.html) 说 明了 Python 
3.3 引入 的 两 个 新 函数 ， 这 两 个 函数 用 于 辅助 类 元 编程 : types.new_class(...) 和 types. 


prepare_class(...), 




















类 装饰 器 的 规范 是 “PEP 3129—Class Decorators” (https://www.python.org/dev/peps/pep- 
3129/) ， 作 者 是 Collin Winter， 参 考 实现 由 Jack Diederich 提供 。Jack Diederich 在 PyCon 
2009 大 会 上 做 了 一 场 题 为 “Class Decorators: Radically Simple” 的 演讲 (视频 : https:/ 
www.youtube.com/watch?v=cAGlIiEJV9_o)， 对 这 个 功能 做 了 简单 介绍 。 


Alex Martelli 写 的 《Python 技术 手册 (第 2 版 )》 对 元 类 的 说 明 很 出 色 ， 还 实现 了 
metaMetaBunch 元 类 ， 其 作用 与 示例 21-2 中 简单 的 record_factory 国 数 一 样 ， 不 过 完善 得 
Z. Martelli 没有 探讨 类 装饰 器 ， 因 为 这 个 功能 在 那 本 书 出 版 后 才 引 入 。Beazley 和 Jones 
在 他 们 合 著 的 《Python Cookbook (第 3 版 ) 中 文 版 》 中 提供 了 几 个 示例 ， 很 好 地 演示 了 类 
装饰 器 和 元 类 。Michael Foord 写 了 一 篇 引人入胜 的 文章 ， 题 为 “Meta-classes Made Easy: 
Eliminating self with Metaclasses” (http://www.voidspace.org.uk/python/articles/metaclasses. 


shtml) 。 副 标题 (“借助 元 类 去 掉 self”) 说 明了 一 切 。 


元 类 的 主要 参考 资料 有 引入 特殊 方法 _prepare_ 的 “PEP 3115—Metaclasses in Python 
3000” (https://www.python.org/dev/peps/pep-3115/), ， 以 及 Guido van Rossum 发 布 的 文章 
“Unifying types and classes in Python 2.2” (https://www.python.org/download/releases/2.2.3/ 
descrintro/) 。 这 篇 文章 也 适用 于 Python 3， 谈 到 了 后 来 称 为 “新 式 类 ”的 语义 ， 包 括 描 
述 符 和 元 类 ， 一 定 要 阅读 。Guido 在 文中 提 到 了 Ira R. Forman 与 Scott H. Danforth @ 34 
的 Putting Metaclasses to Work: a New Dimension in Object-Oriented Programming (Addison- 
Wesley 出 版 社 ，1998 Æ), fthfE ak Gith LAAT TEME, Ss Pan Pirie: 


这 本 书 促成 Python 2.2 实现 了 元 类 

可 惜 ， 这 本 书 已 经 绝版 了 。Python 通过 super() HARAT MEAS ERR, KS! 

这 方面 的 难题 时 ， 我 总 会 提 到 这 本 书 ; 据 我 所 知 ， 这 本 书 是 这 方面 最 好 的 教程 。， 
“PEP 487—Simpler customization of class creation” (https://www.python.org/dev/peps/pep- 
0487/) 提议 为 Python 3.5〈 写 到 这 里 时 ， 处 于 内 测 阶 段 ) 添加 一 个 新 的 特殊 方法 _init_ 
subclass, “让 普通 的 类 ( 即 , 不 是 元 类 ) 定制 子 类 的 初始 化 。 与 类 装饰 器 一 样 ，_init_ 
subclass__ 方法 能 让 类 元 编程 变 得 更 简单 ， 但 会 导致 元 类 这 个 强大 的 功能 更 难 正确 使 用 。 
如 果 你 喜欢 元 编程 ， 可 能 希望 Python 提供 基本 的 元 编程 功能 一 一 Elixir 和 Lisp 语言 族 提供 
AA. FARR, RITA MacroPy (https://github.com/lihaoyi/macropy) 可 用 。 


































































































注 6: 摘自 亚马逊 网 站 中 Putting Metaclasses to Work 的 商品 目录 页 面 (http://amzn.to/1HGwKDO)。 目 前 还 
有 二 手书 出 售 。 我 买 了 一 本 ， 发 现 很 难 读 懂 ， 不 过 以 后 我 可 能 会 再 读 。 
注 7: 现在 ，Python 3.5 已 经 正式 发 布 ，PEP 487 没有 在 Python 3.5 中 实现 ， 而 是 推迟 到 Python 3.6 中 。 
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这 是 本 书 最 后 一 篇 “杂谈 ”了 ， 首 先 我 要 从 Brian Harvey 与 Matthew Wright 合 写 的 著 
作 中 引述 一 大 段 文字 。Harvey 和 Wright 是 加 州 大 学 〈 伯 克利 分 校 和 圣 巴巴 拉 分 校 ) 的 
计算 机 科学 教授 ， 他 们 在 合 著 的 Simply Scheme 一 书 中 写 道 : 
计算 机 科学 的 教学 方式 分 成 两 个 流派 ， 可 以 描述 如 下 。 
(1) 保 守 派 计算 机 程序 已 经 变 得 极其 大 而 复杂 ， 超 过 了 人 类 思维 所 能 承载 的 限 
度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 训练 平庸 的 程序 员 ， 这 样 500 个 人 合作 
便 能 开发 出 恰好 满足 需求 的 程序 。 
(2) 激进 派 计算 机 程序 已 经 变 得 极其 大 而 复杂 ， 超 过 了 人 类 思维 所 能 承载 的 限 
度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 教 人 如 何 拓展 思维 ， 打 破 常 规 ， 学 习 以 
更 广博 、 更 强大 和 更 灵活 的 方式 思考 ， 让 思维 超越 程序 。 编 程 思 想 的 各 个 方 
面 在 程序 中 必 会 得 到 充分 体现 。 





Brian Harvey 和 Matthew Wright 
Simply Scheme 前 言 


这 是 Harvey 和 Wright 对 计算 机 科学 教育 的 压 张 描述 ， 不 过 也 适用 于 编程 语言 的 设计 。 
现在 ， 你 应 该 能 猜 到 ， 我 赞成 “激进 派 ”， 我 认为 Python 也 是 以 这 种 态度 设计 的 。 


为 了 稳扎稳打 ，jJava 从 一 开始 使 用 的 就 是 存 取 方 法 ， 而 且 众 多 Java IDE 都 提供 了 生成 
读 值 方法 和 设 值 方法 的 快捷 键 ; 与 此 相 比 ， 特 性 算是 一 大 进步 。 特 性 的 主要 优点 是 ， 
一 开始 编写 程序 时 可 以 先 把 属性 设 为 公开 的 (遵照 KISS 原则 ) ， 因 为 公开 的 属性 无 需 
大 幅 改 动 ， 随 时 都 能 变 成 特性 。 不 过 ， 描 述 符 更 进一步 ， 提 供 了 去 除 存 取 方 法 中 逻辑 
重复 的 机 制 。 这 种 机 制 特 别 有 效 ， 因 此 基本 的 Python 结构 在 背后 也 用 到 了 描述 符 。 


另 一 个 强大 的 想法 是 ， 把 吕 数 当 作 一 等 对 象 ， 这 为 高 阶 函 数 铺 平 了 道路 。 描 述 符 和 高 
阶 画 数 合 在 一 起 实现 ， 使 得 函数 和 方法 的 统一 成 为 可 能 。 函 数 的 _、get 方法 能 即时 
生成 方法 对 象 ， 把 实例 绑 定 到 self 参数 上 。 这 种 做 法 相当 优雅 。” 


最 后 ，Python 中 的 类 也 是 一 等 对 象 。 作 为 一 门 对 初学 者 友好 的 语言 ，Python 能 提供 类 
装饰 器 ， 允 许 用 户 定义 功能 完整 的 元 类 ， 这 些 强 大 的 抽象 真是 太 棒 了 。 最 棒 的 是 ， 这 
些 高 级 功能 没有 拖累 日 常 编程 (其 实 无 形 中 提供 了 帮助 )。Django 和 SQLAlchemy 等 
框架 用 起 来 这 么 方便 ， 发 展 得 这 么 成 功 ， 很 大 程度 上 归功 于 元 类 ， 而 这 些 工 具 的 用 户 
甚至 不 知道 元 类 的 存在 。 不 过 ， 他 们 可 以 学 习 ， 去 创建 下 一 个 伟大 的 库 。 


我 还 未 见 过 有 哪 门 语言 像 Python 这 样 竟 尽 所 能 ， 让 初学 者 易于 入 门 ， 让 专业 人 士 用 着 
顺手 ， 让 程序 高 手 欢 欣 鼓 状 。 感 谢 Guido van Rossum， 以 及 为 此 努力 的 每 个 人 。 














注 8: Brian Harvey and Matthew Wright, Simply Scheme (MIT Press, 1999), p. xvii. 伯克利 分 校 的 网 站 中 有 此 书 
全 文 (https:/Avww.eecs.berkeley.edu/~bh/ss-toc2.html) 。 

iE 9: David Gelernter 写 的 Machine Beauty (Basic Books 出 版 社 ) 是 一 本 非常 有 趣 的 小 书 ， 对 工程 作品 (从 
桥梁 到 软件 ) 的 优雅 和 美学 做 了 阐述 。 
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Python 是 给 法 定 成 年 人 使 用 的 语言 。 





Alan Runyan 
Plone 的 联合 创始 人 


Alan Python 最 好 的 特质 之 一 : 它 不 妨碍 你 ， 让 你 做 你 该 做 的 事 。 这 也 
意味 着 ， 它 不 会 给 你 提供 工具 ， 让 你 限制 其 他 人 能 对 你 的 代码 和 代码 所 构建 的 对 象 做 什么 。 


当然 ，Python 不 完美 。 对 我 来 说 ， 最 没 法 接受 的 是 ，Python 在 标准 库 中 混用 驼峰 式 和 蛇 底 
K, 或 者 直接 把 单词 连 在 一 起 。 但 是 ,语言 的 定义 和 标准 库 只 是 生态 系统 的 一 部 分 。 用 户 
和 贡献 者 组 成 的 社区 才 是 Python 生态 系统 最 重要 的 部 分 。 


有 一 个 例子 可 以 说 明 社 区 的 好 处 。 一 天 早上 ， 我 在 撰写 asyncio 包 相 关 的 内 容 时 ， 感 到 很 
WR, KHAMA EAS API 有 很 多 函数 ， 其 中 有 些 是 协 程 ， 可 是 协 程 必须 使 用 yield from 
调用 ， 而 常规 的 函数 不 能 这 么 做 。 这 在 asyncio 包 的 文档 中 有 说 明 ， 可 是 有 时 阅读 几 段 
文字 之 后 才能 确定 某 个 函数 是 不 是 协 程 。 因 此 ， 我 给 python-tulip 邮件 列表 发 了 一 个 消 
息 ， 题 为 “Proposal: make coroutines stand out in the asyncio docs” (https://groups.google.com/ 
forum/#!topic/python-tulip/Y4bhLNbKs74), asyncio 包 的 核心 开发 者 Victor Stinner, aiohttp 
包 的 主要 作者 Andrew Svetlov, Tornado 的 首席 开发 者 Ben Darnell, LAK Twisted 的 发 明 者 
Glyph Lefkowitz JNA Site. Darnell 提出 了 一 个 方案 ，Alexander Shorin 解说 如 何在 Sphinx 
中 实现 ，Stinner 添加 了 所 需 的 配置 和 标记 。 我 提出 这 个 问题 不 到 12 小 时 ，asyncio 包 的 整 
个 线 上 文档 都 更 新 了 ， 添 加 了 今天 你 所 看 到 的 “coroutine” 标 签 (https://docs.python.org/3/ 


library/asyncio-eventloop.html#executor) 。 


在 排外 的 社区 中 绝 不 会 有 这 种 事 。 任 何人 都 能 加 入 python-tulip 邮件 列表 ， 我 编写 那个 提 
议 之 前 只 发 布 过 儿 次 消息 而 已 。 这 个 故事 表明 ，Python 社区 特别 开放 ， 广 纳 新 想法 和 新 成 



























































560 


Jlo Guido van Rossum 也 在 python-tulip 邮件 列表 中 ， 即 使 是 简单 的 问题 也 经 常 回答 。 


还 有 一 个 例子 能 说 明 Python 的 开放 : Python 软件 基金 会 (Python Software Foundation, 
PSF) 一 直 在 努力 提升 Python 社区 的 多 样 性 ， 而 且 已 经 达成 一 些 令 人 欣喜 的 成 果 。2013 一 
2014 年 ，PSF 董事 会 首次 选 出 了 女性 董事 Jessica McKellar 和 Lynn Root, 2015 年 在 蒙 
特 利 尔 举办 的 PyCon North America 大 会 (Diana Clarke 主持 ) ， 约 1/3 的 演讲 者 是 女性 。 我 
还 没 见 过 其 他 IT 大 会 如 此 追求 性 别 平等 。 

如 果 你 是 Python 程序 员 ， 但 尚未 加 入 社区 ， 我 建议 你 快 点 加 入 。 寻 找 你 所 在 地 区 的 Python 
用 户 组 (Python Users Group，PUG)。 如 果 没 有 ， 那 就 创建 一 个 。 任 何 地 方 都 有 人 使 用 
Python， 你 并 不 孤独 。 如 果 可 能 的 话 ， 参 加 别处 举办 的 会 议 。 来 参加 PythonBrasil KAWE, 
多 年 以 来 这 个 大 会 都 有 来 自 世 界 各 地 的 演讲 者 。 与 其 他 Python 程序 员 见 面 比 任何 线 上 互动 
都 好 ， 除 了 可 以 获得 别人 分 享 的 知识 外 ， 还 有 很 多 好 处 ， 例 如 工作 机 会 和 真正 的 友谊 。 

我 知道 ， 如 果 没 有 多 年 来 我 在 Python 社区 中 结交 的 朋友 的 帮助 ， 我 不 可 能 写 出 这 本 书 。 
我 的 父亲 说 过 ,“S6 erra quem trabalha”， 这 是 葡萄 牙 语 ， 意 思 是 “只 有 真正 做 事 的 人 才 
会 犯错 "。 这 个 建议 很 棒 ， 能 让 你 不 再 害怕 失败 ， 迈 步 向 前 。 撰 写 这 本 书 的 过 程 中 ， 我 
肯定 犯 了 错误 。 审 校 、 编 辑 和 预先 发 布 版 的 读者 帮 我 找 出 了 很 多 错误 。 早 期 发 布 版 刚 
发 布 几 小 时 ， 就 有 一 个 读者 在 本 书 的 勘误 页 面 (http://www.oreilly.com/catalog/errata. 
csp?isbn=0636920032519) 报告 拼写 错误 。 其 他 读者 报告 了 更 多 错误 ， 我 的 朋友 还 直接 联 
系 我 ， 提 供 建议 和 更 正 。 我 写 完 本 书后 ，O’Reilly 的 文字 编辑 会 在 出 版 过 程 中 找 出 其 他 错 
误 。 如 果 还 有 任何 错误 和 词 不 达意 的 表述 ， 责 任 都 在 我 ， 在 此 向 各 位 读者 致 痰 。 

终于 写 完 这 本 书 了 ， 我 特别 高 兴 ， 无 论 有 没有 错误 ， 我 都 十 分 感激 一 路 上 给 我 帮助 的 每 个 人 。 
希望 很 快 就 能 在 会 议 上 见 到 你 。 如 果 见 到 我 ， 请 过 来 打 声 招呼 。 


延伸 阅读 


在 本 书 的 最 后 ， 我 要 介绍 一 些 “Python 风格 ”的 参考 资料 一 一 这 正 古 本 书 尝试 解决 的 主要 
问题 。 

Brandon Rhodes 是 位 出 色 的 Python 教师 ， 他 的 演讲 “A Python Æsthetic: Beauty and Why 
I Python” (https://www.youtube.com/watch?v=x-kB208sd5c) 很 精彩 ， 从 标题 中 使 用 的 
Unicode 字符 U+00C6 (拉丁 语 大 写字 母 AE) 开始 谈 起 。 另 一 位 出 色 的 教师 Raymond 
Hettinger， 在 2013 年 的 PyCon US 大 会 上 谈 了 Python 之 美 :“Transforming Code into 
Beautiful, Idiomatic Python” (https://www.youtube.com/watch?v=OSGv2VnC0go) 。 









































































































































Ian Lee 在 Python-ideas 邮件 列表 中 发 起 的 “Evolution of Style Guides” {fj (https://mail. 
python.org/pipermail/python-ideas/2015-March/032557.html) 值 得 一 i, Lee 是 pep8 包 
(https://pypi.python.org/pypi/pep8/) 的 维护 者 ， 这 个 包 的 作用 是 检查 Python 代码 是 否 符合 
PEP 8。 检 查 书 中 的 代码 时 ， 我 用 的 是 flake8 (https://pypi.python.org/pypi/flake8)， 这 个 
包 融 合 了 pep8、pyflakes (https://pypi.python.org/pypi/pyflakes) 和 Ned Batchelder 开发 的 
McCabe 复杂 度 插件 (https:/pypi.python.org/pypi/mccabe ) 。 














除了 PEP 8, Google 的 Python 风格 指南 (https://google-styleguide.googlecode.com/svn/trunk/ 
pyguide.html) 和 Pocoo 风格 指南 (http://www.pocoo.org/internal/styleguide/) 也 有 很 大 的 影 
啊 。Pocoo 团队 为 我 们 开发 了 Flask, Sphinx, Jinja 2 和 其 他 优秀 的 Python Æ. 


The Hitchhiker’s Guide to Python! (http://docs.python-guide.org/en/latest/) 由 多 人 维护 ， 说 
明 如 何 编 写 符 号 Python 风格 的 代码 。 为 这 个 项 目 贡献 最 多 内 容 的 是 Kenneth Reitz， 他 因 
开发 特别 符合 Python 风格 的 requests 包 而 被 社区 视 为 英雄 。David Goodger 在 2008 年 举 
办 的 PyCon US 大 会 上 办 了 一 场 教学 活动 ， 题 为 “Code Like a Pythonista: Idiomatic Python” 
(http://python.net/~goodger/projects/pycon/2007/idiomatic/handout.html) 。 如 果 打 印 出 来 ， 这 个 教 
程 的 教案 有 30 页 。 当 然 ， 教 案 的 reStructuredText 源码 能 下 载 到 ， 可 以 使 用 docutils 将 其 
ta ep HTML 和 S5 幻灯 片 (http://meyerweb.com/eric/tools/s5/), EE, reStructuredText 和 
docutils 都 是 Goodger 的 作品 。 这 两 个 工具 是 Sphinx 的 基础 。Sphinx 是 优秀 的 Python X 
档 系统 ， 顺 便 提 一 下 ，MongoDB (https://docs.mongodb.org/manual/about/#about-the-documentation- 
process) 和 很 多 其 他 项 目的 官方 文档 系统 都 是 Sphinx。 


Martijn Faassen 直接 回答 了 “什么 是 Python 风格 ”这 个 问题 (http://blog.startifact.com/ 
posts/older/what-is-pythonic.html) ，python-list 邮件 列表 中 也 有 一 个 相同 标题 的 话题 (https:// 
mail.python.org/pipermail/tutor/2003-October/025930.html), Martijn 的 文章 是 2005 年 写 的 ， 
那个 话题 是 2003 年 讨论 的 ， 不 过 Python 风格 的 思想 没 怎么 变化 ，Python 语言 本 身 也 是 如 
此 。“Pythonic way to sum n-th list element?” 话 题 (https://mail.python.org/pipermail/python- 
list/2003-April/192027.html) 对 Python 风格 做 了 深入 讨论 ， 我 在 第 10 章 的 “杂谈 ”中 有 大 
量 引 用 。 


“PEP 3099— Things that will Not Change in Python 3000” (https://www.python.org/dev/peps/ 
pep-3099/) 解释 了 经 过 Python 3 大 幅度 的 调整 之 后 ， 为 何许 多 东西 仍 是 现在 的 样子 。 长 
久 以 来 ，Python 3 有 个 昵称 一 一 Python 3000， 不 过 诞生 时 间 早 了 几 个 世纪 ， 这 让 一 些 人 失 
望 。PEP 3099 的 作者 是 Georg Brandl， 他 收集 了 仁 扰 的 独裁 者 ( 即 Guido van Rossum) 的 
很 多 观点 。Python Essays 页 面 (https://www.python.org/doc/essays/) 列 出 了 很 多 Guido A 
己 写 的 文章 。 
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辅助 脚本 


有 些 脚本 太 长 ， 在 正文 里 放 不 下 ， 这 上 











格 和 数据 ， 这 里 一 并 列 出 。 


这 里 列 出 的 脚本 ， 以 及 








上 中 几乎 每 个 代码 片段 ， 见 于 本 


fluentpython/example-code)。 


2 Ae 4b me 
A.1 第 3 章 : in 运算 符 的 性 能 测试 
K 3-6 中 的 计时 数据 是 我 使 用 示例 A-1 中 的 代码 生成 的 ， 这 段 代码 用 到 了 timeit 模块 。 这 
个 脚本 主要 用 于 设置 haystack 和 needles 样本 ， 并 格式 化 输出 。 


3È 





写 示 例 A-L 时 ， 我 发 现 的 确 能 客观 比较 dict 的 性 能 。 





有 将 其 完整 列 出 。 此 外 ， 有 些 脚 本 用 于 生成 书 中 的 表 


区 的 代码 仓库 (https://github.com/ 














如 果 在 “详细 模式 ”( 指 定 命令 行 





选项 -v) 中 运行 这 个 脚本 ， 用 时 几乎 是 表 3-5 中 的 两 倍 。 但 是 注意 ， 对 这 个 脚本 来 说 ， 在 
“详细 模式 ”中 ， 只 是 多 了 用 于 设置 测试 内 容 的 四 个 print 调用 ， 以 及 在 各 个 测试 结束 后 显 
示 找 到 多 少 个 needles 的 那个 print 调用 。 在 haystack 中 搜索 needles 的 那个 循环 没有 输 
出 ， 不 过 这 五 个 print 调用 耗费 的 时 间 与 搜索 1000 个 needles 差不多 。 


示例 A-1 container_perftest.py: 运行 时 以 内 置 集合 类 型 的 名 称 为 命令 行 参 数 〈 例 如 


container_perftest.py dict) 


MA ASNT in’ SEP HERE MIA 


import sys 
import timeit 


SETUP = ''' 
import array 
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selected = array.array('d') 
with open('selected.arr', 'rb') as fp: 
selected.fromfile(fp, {size}) 
if {container_type} is dict: 
haystack = dict.fromkeys(selected, 1) 
else: 
haystack = {container_type}(selected) 
if {verbose}: 
print(type(haystack), end=' ') 
print('haystack: %10d' % Len(haystack), end=' ') 
needles = array.array('d') 
with open('not_selected.arr', 'rb') as fp: 
needles. fromfile(fp, 500) 
needles.extend(selected[::{size}//500]) 
if {verbose}: 
print(' needles: %10d' % Len(needles), end=' ') 


tot 


TEST = ''' 
found = 0 
for n in needles: 
if n in haystack: 
found += 1 
if {verbose}: 
print(' found: %10d' % found) 


tot 


def test(container_type, verbose): 
MAX_EXPONENT = 7 
for n in range(3, MAX_EXPONENT + 1): 
size = 10**n 
setup = SETUP.format(container_type=container_type, 
size=size, verbose=verbose) 
test = TEST. format(verbose=verbose) 
tt = timeit.repeat(stmt=test, setup=setup, repeat=5, number=1) 
print('|{:{}d}|{:f}'.format(size, MAX_EXPONENT + 1, min(tt))) 
if __name__=='_ main_': 
if '-v' in sys.argv: 
syS.argv.remove('-v') 
verbose = True 
else: 
verbose = False 
if len(sys.argv) != 2: 
print('Usage: %s <container_type>' % sys.argv[0]) 
else: 
test(sys.argv[1], verbose) 


container_perftest_datagen.py 脚本 〈 见 示例 A-2) 为 示例 A-1 中 的 脚本 生成 固件 数据 。 


示例 A-2 container_perftest_datagen.py: 生成 由 不 同 的 浮 点 数组 成 的 数组 ， 然 后 写 入 文 
件 ， 供 示例 A-1 使 用 





生成 容器 性 能 测试 所 需 的 数据 
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import random 
import array 


MAX_EXPONENT = 7 
HAYSTACK_LEN = 10 ** MAX_EXPONENT 
NEEDLES_LEN = 10 ** (MAX_EXPONENT - 1) 
SAMPLE_LEN = HAYSTACK_LEN + NEEDLES LEN // 2 


needles = array.array('d') 


sample = {1/random.random() for i in range(SAMPLE_LEN) } 
print('initial sample: %d elements' % len(sample)) 


# 完整 的 样本 ,防止 丢弃 了 重复 的 随机 数 
while len(sample) < SAMPLE_LEN: 
sample.add(1/random.random()) 





print('complete sample: %d elements' % len(sample)) 


sample = array.array('d', sample) 
random. shuffle(sample) 


not_selected = sampLe[ :NEEDLES_LEN // 2] 

print('not selected: %d samples' % Len(not_selected) ) 

print(' writing not_selected.arr') 

with open('not_selected.arr', 'wb') as fp: 
not_selected.tofile(fp) 


selected = sample[NEEDLES_LEN // 2:] 

print('selected: %d samples' % Len(selected) ) 

print(' writing selected.arr') 

with open('selected.arr', 'wb') as fp: 
selected.tofile(fp) 


A.2 第 3 章 : 比较 散 列 后 的 位 模式 


示例 A-3 erie 单 的 脚本 ， 告 诉 你 相似 浮 点 数 (例如 1.0001, 1.0002, 44) 的 位 模式 有 
什么 差异 。 这 个 脚本 的 输出 在 示例 3-16 中 。 


示例 A-3 hashdiff.py: 显示 散 列 值 的 位 模式 有 何 差异 


import sys 








MAX_BITS = len(format(sys.maxsize, 'b')) 
print('%s-bit Python build' % (MAX_BITS + 1)) 


def hash_diff(o1, 02): 
h1 = '{:>0{}b}'.format(hash(o1), MAX_BITS) 
h2 = '{:>0{}b}'.format(hash(o2), MAX_BITS) 
diff = ''.join('!' if b1 != b2 else ' ' for b1, b2 in zip(hi, h2)) 
count = '!= {}'.format(diff.count('!')) 
width = max(len(repr(o1)), lLen(repr(o2)), 8) 
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sep = '-' * (width * 2 + MAX_BITS) 
return '{!r:{width}} {}\n{:{width}} {} {}\n{!r:{width}} {}\n{}'.format( 
o1, h1, ' ' * width, diff, count, 02, h2, sep, width=width) 


if _name == '_ main_': 
print(hash_diff(1, 1.0)) 
print(hash_diff(1.0, 1.0001)) 
print(hash_diff(1.0001, 1.0002)) 
print(hash_diff(1.0002, 1.0003)) 


A.3 第 9 章 : 有 或 没有 _stLots_ 时 ，RAM 的 用 量 


memtest.py 脚本 用 于 支持 9.8 市 的 一 个 演示 示例 9-12。 


memtest.py 脚本 从 命令 行 中 接收 一 个 模块 的 名 称 ， 加 载 那个 模块 。 假 设 模块 中 定义 有 一 个 
名 为 Vector 的 类 ，memtest.py 脚本 会 创建 一 个 由 一 千 万 个 实例 组 成 的 列表 ， 然 后 报告 创建 
列表 前 后 内 存 的 用 量 。 


示例 A-4 memtest.py: 创建 大 量 Vector 实例 ， 报 告 内 存 用 量 
import importlib 
import sys 
import resource 

















E 








NUM_VECTORS = 10**7 


if len(sys.argv) == 2: 
module_name = sys.argv[1].replace('.py', '') 
module = importlib.import_module(module_name) 
else: 
print('Usage: {} <vector-module-to-test>'.format()) 
sys.exit(1) 


fmt = 'Selected Vector2d type: {.__name__}.{.__name__}' 
print(fmt.format(module, module.Vector2d)) 


mem_init = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 
print('Creating {:,} Vector2d instances'.format(NUM_VECTORS) ) 


vectors = [module.Vector2d(3.0, 4.0) for i in range(NUM_VECTORS) ] 
mem_final = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 


print('Initial RAM usage: {:14,}'.format(mem_init) ) 
print(' Final RAM usage: {:14,}'.format(mem_finaL)) 


A.4 148. 转换 数据 库 的 isis2json.py 脚 本 


示例 A-5 是 14.13 节 讨 论 的 isis2json.py 脚本 。 这 个 脚本 使 用 生成 器 函数 ， 以 惰性 的 方式 把 
CDS/ISIS 数据 库 转换 成 JSON 格式 ， 以 便 载 和 到 CouchDB 或 MongoDB。 


注意 ， 这 是 个 Python 2 脚本， 针对 CPython 或 Jython， 支 持 Python 2.5~2.7， 不 能 使 
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用 Python 3 运行 。 在 CPython 中 ， 只 能 读 取 .iso 文件 ， 在 Jython 中 ， 使 用 GitHub 中 
fluentpython/isis2json 仓库 _Ahttps:/igithub. com/fluentpython/isis2json) 里 的 Bruma 库 ， 还 可 以 
读 取 .mst 文件 。 详 情 参见 该 仓库 里 的 用 法 文档 。 


示例 A-5 isis2json.py: 依赖 和 文档 在 GitHub 中 的 fluentpython/isis2json 仓库 里 
# 这 个 脚本 支持 Python 和 Jython( 版 本 >=2.5 且 <3) 








import sys 

import argparse 

from uuid import uuid4 
import os 


try: 
import json 
except ImportError: 
if os.name == 'java': # 在 Jython 中 运行 
from com.xhaus.jyson import JysonCodec as json 
else: 
import simplejson as json 








SKIP_INACTIVE = True 
DEFAULT_QTY = 2**31 
ISIS_MFN_KEY = 'mfn' 
ISIS_ACTIVE_KEY = 'active' 
SUBFIELD_DELIMITER = '^' 
INPUT_ENCODING = 'cp1252' 


def iter_iso_records(iso_file_name, isis_json_type): @ 
from iso2709 import IsoFile 
from subfield import expand 


iso = IsoFile(iso_file_name) 
for record in iso: 
fields = {} 
for field in record.directory: 
field_key = str(int(field.tag)) # Hay Se 
field_occurrences = fields.setdefault(field_key, []) 
content = field.value.decode(INPUT_ENCODING, 'replace') 
if isis_json_type == 1: 
field_occurrences.append(content) 
elif isis_json_type == 2: 
field_occurrences.append(expand(content) ) 
elif isis_json_type == 3: 
field_occurrences.append(dict(expand(content) )) 
else: 
raise NotImplementedError('ISIS-JSON type %s conversion 
"not yet implemented for .iso input' % isis_json_type) 





yield fields 
iso.close() 


def iter_mst_records(master_file_name, isis_json_type): @ 
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try: 
from bruma.master import MasterFactory, Record 
except ImportError: 
print('IMPORT ERROR: Jython 2.5 and Bruma. jar 
‘are required to read .mst files') 
raise SystemExit 
mst = MasterFactory.getInstance(master_file_name).open() 
for record in mst: 
fields = {} 
if SKIP_INACTIVE: 
if record.getStatus() != Record.Status.ACTIVE: 
continue 
else: # 仅 当 没有 活动 的 记录 时 才 保 存 状 态 
fields[ISIS_ACTIVE_KEY] = (record.getStatus() == 
Record.Status.ACTIVE) 
fields[ISIS_MFN_KEY] = record.getMfn() 
for field in record.getFields(): 
field_key = str(field.getId()) 
field_occurrences = fields.setdefault(field_key, []) 
if isis_json_type == 3: 
content = {} 
for subfield in field.getSubfields(): 
subfield_key = subfield.getId() 
if subfield_key == '*': 
content['_'] = subfield.getContent() 
else: 
subfield_occurrences = content.setdefault(subfield_key, []) 
subfield_occurrences.append(subfield.getContent()) 
field_occurrences.append(content) 
elif isis_json_type == 1: 
content = [] 
for subfield in field.getSubfields(): 
subfield_key = subfield.getId() 
if subfield_key == '*': 
content.insert(@, subfield.getContent()) 
else: 
content.append(SUBFIELD_DELIMITER + subfield_key + 
subfield.getContent()) 
field_occurrences.append(''.join(content)) 
else: 
raise NotImplementedError('ISIS-JSON type %s conversion 
"not yet implemented for .mst input' % isis_json_type) 
yield fields 
mst.close() 





def write_json(input_gen, file_name, output, qty, skip, id_tag, © 
gen_uuid, mongo, mfn, isis_json_type, prefix, 
constant): 
start = skip 
end = start + qty 
if id_tag: 
id_tag = str(id_tag) 
ids = set() 
else: 
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id tag = 
for i, record in enumerate(input_gen): 
if i >= end: 
break 
if not mongo: 
if i == 0: 
output.write('[') 
elif i > start: 
output.write(',') 
if start <= i < end: 
if id_tag: 
occurrences = record.get(id_tag, None) 
if occurrences is None: 
msg = 'id tag #%s not found in record %s' 
if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) 
raise KeyError(msg % (id_tag, i)) 
if len(occurrences) > 1: 
msg = 'multiple id tags #%s found in record %s' 
if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) 
raise TypeError(msg % (id_tag, i)) 
else: # 好 吧 , 有 且 仅 有 一 个 td 字段 
if isis_json_type == 1: 
id = occurrences[0] 
elif isis_json_type == 2: 
id = occurrences[0][0][1] 
elif isis_json_type == 3: 
id = occurrences[O]['_'] 
if id in ids: 
msg = ‘duplicate id %s in tag #%s, record %s' 
if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) 
raise TypeError(msg % (id, id_tag, i)) 
record['_id'] = id 
ids.add(id) 
elif gen_uuid: 
record['_id'] = unicode(uuid4()) 
elif mfn: 
record['_id'] = record[ISIS_MFN_KEY] 
if prefix: 
# ER EERIE EA] 
for tag in tuple(record): 
if str(tag).isdigit(): 
record[prefixttag] = record[tag] 
del record[tag] # 这 就 是 迭代 元 组 的 原因 
# 获取 标签 ,但 不 直接 从 记录 字典 中 获取 
if constant: 
constant_key, constant_value = constant.split(':') 
record[constant_key] = constant_value 
output.write(json.dumps(record).encode('utf-8')) 
output.write('\n') 
if not mongo: 
output.write(']\n') 
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def main(): @ 
# 创建 解析 器 
parser = argparse.ArgumentParser( 
description='Convert an ISIS .mst or .iso file to a JSON array') 


# 添加 参数 
parser.add_argument( 
'file_name', metavar='INPUT.(mst|iso)', 
help='.mst or .iso file to read') 
parser.add_argument( 
'-o', '--out', type=argparse.FileType('w'), default=sys.stdout, 
metavar='OUTPUT.json', 
help='the file where the JSON output should be written' 
' (default: write to stdout)') 
parser.add_argument( 
"-c', '--couch', action='store_true', 
help='output array within a "docs" item in a JSON document' 
' for bulk insert to CouchDB via POST to db/_bulk_docs') 
parser.add_argument( 
'-m', '--mongo', action='store_true', 
help='output individual records as separate JSON dictionaries, one' 
' per line for bulk insert to MongoDB via mongoimport utility') 
parser.add_argument( 
'-t', '--type', type=int, metavar='ISIS_JSON_TYPE', default=1, 
help='ISIS-JSON type, sets field structure: 1=string, 2=alist,' 
' 3=dict (default=1)') 
parser.add_argument( 
'-q', '--qty', type=int, default=DEFAULT_QTY, 
help='maximum quantity of records to read (default=ALL)') 
parser.add_argument( 
'-s', '--skip', type=int, default=0, 
help='records to skip from start of .mst (default=0)') 
parser.add_argument( 
'-i', '--id', type=int, metavar='TAG_NUMBER', default=0, 
help='generate an "_id" from the given unique TAG field number' 
' for each record') 
parser.add_argument( 
'-u', '--uuid', action='store_true', 
help='generate an "_id" with a random UUID for each record') 
parser.add_argument( 
'-p', '--prefix', type=str, metavar='PREFIX', default='', 
help='concatenate prefix to every numeric field tag' 
' (ex. 99 becomes "v99")') 
parser.add_argument( 
'-n', '--mfn', action='store_true', 
help='generate an "_id" from the MFN of each record' 
' (available only for .mst input)') 
parser.add_argument( 
'-k', '--constant', type=str, metavar='TAG:VALUE', default='', 
help='Include a constant tag:value in every record (ex. -k type:AS)') 


# TODO: 实现 这 个 功能 ,导出 大 量 记录 供给 CouchDB 
parser.add_argument( 
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'-r', '--repeat', type=int, default=1, 
help='repeat operation, saving multiple JSON files' 
' (default=1, use -r 0 to repeat until end of input)') 

# 解析 命令 行 
args = parser.parse_args() 
if args.file_name.lower().endswith('.mst'): 

input_gen_func = iter_mst_records © 
else: 

if args.mfn: 

print('UNSUPORTED: -n/--mfn option only available for .mst input.') 
raise SystemExit 

input_gen_func = iter_iso_records @ 
input_gen = input_gen_func(args.file_name, args.type) @ 
if args.couch: 

args.out.write('{ "docs" : ') 
write_json(input_gen, args.file_name, args.out, args.qty, © 

args.skip, args.id, args.uuid, args.mongo, args.mfn, 
args.type, args.prefix, args.constant) 

if args.couch: 

args.out.write('}\n') 
args.out.close() 


if _ name == '__main_': 
main() 
@ iter_iso_records 生成 器 函数 读 取 iso 文件 ， 产 出 记录 。 
@ iter_mst_records 生成 器 国 数 读 取 .mst 文件 ， 产 出 记录 。 
© write_json 函数 迭代 input_gen 生成 器 ， 输 出 json 文件 。 
@ main 函数 读 取 命令 行 参 数 ， 然 后 根据 输入 文件 的 扩展 名 选择 …… 
O- iter_mst_records 生成 器 函数 ……… 
O 或 者 iter_iso_records 生成 器 国 数 。 
@ 使 用 选中 的 生成 器 国 数 构建 生成 器 对 象 。 
O 把 生成 器 作为 第 一 个 参数 传 给 write_json 国 数 。 


A.5 第 16 章 : 出 租车 队 离 散 事 件 仿真 


示例 A-6 是 16.9.2 市 讨论 的 taxi_sim.py 脚本 的 完整 代码 。 


示例 A-6 taxi_sim.py: 出 租车 队 仿 真 程序 





出 租车 仿真 程序 














在 控制 台中 驱动 出 租车 :: 


>>> from taxi_sim import taxi_process 
>>> taxi = taxi_process(ident=13, trips=2, start_time=0) 
>>> next(taxi) 
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Event(time=0, proc=13, action='leave garage') 
>>> taxi.send(_.time + 7) 
Event(time=7, proc=13, action='pick up passenger') 
>>> taxi.send(_.time + 23) 
Event(time=30, proc=13, action='drop off passenger') 
>>> taxi.send(_.time + 5) 
Event(time=35, proc=13, action='pick up passenger') 
>>> taxi.send(_.time + 48) 
Event(time=83, proc=13, action='drop off passenger') 
>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home') 
>>> taxi.send(_.time + 10) 
Traceback (most recent call last): 
File "<stdin>", Line 1, in <module> 
StopIteration 














运行 示例 :有 两 辆 出 租车 ,随机 种 子 是 10。 这 是 有 效 的 doctest:: 


>>> main(num_taxis=2, seed=10) 

taxi: 0 Event(time=0, proc=0, action='leave garage') 
taxi: @ Event(time=5, proc=0, action='pick up passenger') 
taxi: 1 Event(time=5, proc=1, action='leave garage') 


taxi: 1 Event(time=10, proc=1, action='pick up passenger') 
taxi: 1 Event(time=15, proc=1, action='drop off passenger') 
taxi: @ Event(time=17, proc=0, action='drop off passenger') 
taxi: 1 Event(time=24, proc=1, action='pick up passenger') 
taxi: 0 Event(time=26, proc=0, action='pick up passenger ') 
taxi: 0 Event(time=30, proc=0, action='drop off passenger') 
taxi: 0 Event(time=34, proc=0, action='going home' ) 
taxi: 1 Event(time=46, proc=1, action='drop off passenger') 
taxi: 1 Event(time=48, proc=1, action='pick up passenger') 
taxi: 1 Event(time=110, proc=1, action='drop off passenger') 
taxi: 1 Event(time=139, proc=1, action='pick up passenger') 
1 


taxi: Event(time=140, proc=1, action='drop off passenger') 
taxi: 1 Event(time=150, proc=1, action='going home') 
*** end of events *** 





模块 末尾 有 个 更 长 的 运行 示例 。 


import random 
import collections 
import queue 
import argparse 
import time 


DEFAULT_NUMBER_OF_TAXIS = 3 
DEFAULT_END_TIME = 180 
SEARCH_DURATION = 5 
TRIP_DURATION = 20 
DEPARTURE_INTERVAL = 5 


Event = collections.namedtuple('Event', 'time proc action') 
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# BEGIN TAXI_PROCESS 
def taxi_process(ident, trips, start_time=0): 
""" 每 次 状态 变化 时 向 仿真 程序 产 出 一 个 事件 "”" 
time = yield Event(start_time, ident, 'leave garage') 
for i in range(trips): 
time = yield Event(time, ident, 'pick up passenger') 
time = yield Event(time, ident, 'drop off passenger') 























yield Event(time, ident, ‘going home') 
# 结束 出 租车 进程 
# END TAXI_PROCESS 








# BEGIN TAXI_SIMULATOR 
class Simulator: 


def __ init__(self, procs_map): 
self.events = queue.PriorityQueue( ) 
self.procs = dict(procs_map) 


def run(self, end_time): 
""" 调 度 并 显示 事件 ,直到 时 间 结 束 """ 
# 调度 各 辆 出 租车 的 第 一 个 事件 
for _, proc in sorted(self.procs.items()): 
first_event = next(proc) 
self.events.put(first_event) 



































# 此 次 仿真 的 主 循环 
sim_time = 0 
while sim_time < end_time: 
if self.events.empty(): 
print('*** end of events ***') 
break 


current_event = self.events.get() 
sim_time, proc_id, previous_action = current_event 
print('taxi:', proc_id, proc_id * ' ', current_event) 
active_proc = self.procs[proc_id] 
next_time = sim_time + compute_duration(previous_action) 
try: 
next_event = active_proc.send(next_time) 
except StopIteration: 
del self.procs[proc_id] 
else: 
self.events.put(next_event) 
else: 
msg = '*** end of simulation time: {} events pending ***' 
print(msg.format(self.events.qsize())) 
# END TAXI_SIMULATOR 


def compute_duration(previous_action): 


""" 使 用 指数 分 布 计算 操作 的 耗 时 ”" 


if previous_action in ['leave garage', 'drop off passenger']: 
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# 新 状态 是 四 处 徘徊 
interval = SEARCH_DURATION 
elif previous_action == 'pick up passenger ' : 
# 新 状态 是 行程 开始 
interval = TRIP_DURATION 
elif previous_action == 'going home': 
interval = 1 
else: 
raise ValueError('Unknown previous_action: %s' % previous_action) 
return int(random.expovariate(1/interval)) + 1 

















def main(end_time=DEFAULT_END_TIME, num_taxis=DEFAULT_NUMBER_OF_TAXIS, 
seed=None): 
""" 初 始 化 随机 生成 器 ,构建 过 程 , 运 行 仿真 程序 """ 
if seed is not None: 
random.seed(seed) # 获得 可 复 现 的 结果 


taxis = {i: taxi_process(i, (i+1)*2, 1*DEPARTURE_INTERVAL) 
for i in range(num_taxis)} 

sim = Simulator(taxis) 

sim.run(end_time) 


1 1 


if _name == ' main_': 


parser = argparse.ArgumentParser ( 
description='Taxi fleet simulator.') 
parser.add_argument('-e', '--end-time', type=int, 
default=DEFAULT_END_TIME, 
help='simulation end time; default = %s 
% DEFAULT_END_TIME) 
parser.add_argument('-t', '--taxis', type=int, 
default=DEFAULT_NUMBER_OF_TAXIS, 
help='number of taxis running; default = %s 
% DEFAULT_NUMBER_OF_TAXIS) 
parser.add_argument('-s', '--seed', type=int, default=None, 
help='random generator seed (for testing)') 


1 


args = parser.parse_args() 
main(args.end_time, args.taxis, args.seed) 


命令 行 中 的 运行 示例 :seed=3, 最 长 用 时 =120:: 








# BEGIN TAXI_SAMPLE_RUN 

$ python3 taxi_sim.py -s 3 -e 120 

taxi: 0 Event(time=0, proc=0, action='leave garage') 
taxi: 0 Event(time=2, proc=0, action='pick up passenger') 


taxi: 1 Event(time=5, proc=1, action='leave garage') 

taxi: 1 Event(time=8, proc=1, action='pick up passenger') 
taxi: 2 Event(time=10, proc=2, action='leave garage') 
taxi: 2 Event(time=15, proc=2, action='pick up passenger') 
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taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 


kkk 


# EN 


A.6 
这 几 个 肢 


Event(time=17, proc=2, action='drop off passenger') 
Event(time=18, proc=0, action='drop off passenger') 
Event(time=18, proc=2, action='pick up passenger') 
Event(time=25, proc=2, action='drop off passenger') 
Event(time=27, proc=1, action='drop off passenger') 
Event(time=27, proc=2, action='pick up passenger') 
Event(time=28, proc=0, action='pick up passenger' ) 
Event(time=40, proc=2, action='drop off passenger') 
Event(time=44, proc=2, action='pick up passenger' ) 
Event(time=55, proc=1, action='pick up passenger' ) 
Event(time=59, proc=1, action='drop off passenger') 
Event(time=65, proc=0, action='drop off passenger') 
Event(time=65, proc=1, action='pick up passenger' ) 
Event(time=65, proc=2, action='drop off passenger') 
Event(time=72, proc=2, action='pick up passenger') 
Event(time=76, proc=0, action='going home') 
Event(time=80, proc=1, action='drop off passenger') 
Event(time=88, proc=1, action='pick up passenger' ) 
Event(time=95, proc=2, action='drop off passenger') 
Event(time=97, proc=2, action='pick up passenger') 
Event(time=98, proc=2, action='drop off passenger') 
Event(time=106, proc=1, action='drop off passenger') 
Event(time=109, proc=2, action='going home' ) 
Event(time=110, proc=1, action='going home') 
end of events *** 
D TAXI_SAMPLE_RUN 


PNRPFPNNNRFPRPONNRPORPHRFPNNONRFNN ON 


S178: 加 密 示例 





本 用 于 展示 如 何 使 用 futures.ProcessPoolExecutor 执行 CPU 密集 型 任务 。 








示例 A-7 使 用 RC4 算法 加 密 并 解密 随机 的 字 节 数组 ， 需 要 arcfour.py 模块 ( 见 示例 A-8) 


支持 才能 





运行 。 


示例 A-7 arcfour_futures.py; futures.ProcessPooLExecutor 用 法 示例 


impo 
impo 
from 
from 
from 


JOBS 
SIZE 


KEY 
STAT 


def 


rt sys 

rt time 

concurrent import futures 
random import randrange 
arcfour import arcfour 


12 
2**18 


= b"'Twas brillig, and the slithy toves\nDid gyre" 
US = '{} workers, elapsed time: {:.2f}s' 


arcfour_test(size, key): 
in_text = bytearray(randrange(256) for i in range(size)) 
cypher_text = arcfour(key, in_text) 
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out_text = arcfour(key, cypher_text) 
assert in_text == out_text, ‘Failed arcfour_test' 
return size 


def main(workers=None): 
if workers: 
workers = int(workers) 
tO = time.time() 


with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor._max_workers 
to_do = [] 
for i in range(JOBS, 0, -1): 
size = SIZE + int(SIZE / JOBS * (i - JOBS/2)) 
job = executor.submit(arcfour_test, size, KEY) 
to_do.append( job) 


for future in futures.as_completed(to_do): 
res = future.result() 
print('{:.1f} KB'.format(res/2**10)) 


print(STATUS.format(actual_workers, time.time() - t0)) 
if _name == '_ main_': 
if len(sys.argv) == 2: 
workers = int(sys.argv[1]) 
else: 
workers = None 
main(workers) 





示例 A-8 纯粹 使 用 Python 实现 RC4 加 密 算法 。 


示例 A-8 arcfour.py: 兼容 RC4 的 算法 














wa ERCA ye" wn 








def arcfour(key, in_bytes, loops=20): 





kbox = bytearray(256) # 创建 存储 键 的 数组 

for i, car in enumerate(key): # 复制 键 和 向 量 
kbox[i] = car 

j = len(key) 

for i in range(j, 256): # 重复 到 底 
kbox[i] = kbox[i-j] 





rap 


# [1] 初始 化 sbox 
sbox = bytearray(range(256) ) 


# 按照 CipherSaber-2 的 建议 ,不 断 打 乱 sbox 
# http://ciphersaber.gurus.com/faq.html#cs2 
j= 0 
for k in range(loops): 
for i in range(256): 
j = (j + sbox[i] + kbox[i]) % 256 
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sbox[i], sbox[j] = sbox[j], sbox[i] 


# 主 循环 
i=0 
j=0 


out_bytes = bytearray() 


for car in in_bytes: 
i= (i +1) % 256 
# [2] 打 乱 sbox 
j = (j + sbox[i]) % 256 
sbox[i], sbox[j] = sbox[j], sbox[i] 


# [3] 计算 t 
t = (sbox[i] + sbox[j]) % 256 
k = sbox[t] 


car = car ^k 
out_bytes.append(car) 


return out_bytes 


def test(): 
from time import time 
clear = bytearray(b'1234567890' * 100000) 
tO = time() 
cipher = arcfour(b'key', clear) 
print('elapsed time: %.2fs' % (time() - t0)) 
result = arcfour(b'key', cipher) 


assert result == clear, '%r != %r' % (result, clear) 
print('elapsed time: %.2fs' % (time() - t0)) 
print('OK') 

if _name == '_ main_': 
test() 





示例 A-9 使 用 SHA-256 散 列 算法 打 乱 字 节 数组 。 这 个 脚本 使 用 标准 库 中 的 hashlib 模块 ， 
而 这 个 模块 使 用 C 语言 编写 的 OpenSSL 库 。 





示例 A-9 sha_futures.py: futures.ProcessPooLExecutor 用 法 示例 
import sys 
import time 
import hashlib 
from concurrent import futures 
from random import randrange 


JOBS = 12 
SIZE = 2**20 
STATUS = '{} workers, elapsed time: {:.2f}s' 


def sha(size): 
data = bytearray(randrange(256) for i in range(size)) 
algo = hashlib.new('sha256') 
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algo.update(data) 
return algo.hexdigest() 


def main(workers=None): 
if workers: 
workers = int(workers) 
tO = time.time() 


with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor._max_workers 
to_do = (executor.submit(sha, SIZE) for i in range(JOBS)) 
for future in futures.as_completed(to_do): 
res = future.result() 
print(res) 


print(STATUS.format(actual_workers, time.time() - t0)) 
if _name == '_ main_': 
if len(sys.argv) == 2: 
workers = int(sys.argv[1]) 
else: 
workers = None 
main(workers) 


A.7 第 17 章 : flags2 系 列 HTTP 客 户 端 示例 
17.5 节 的 flags2 系列 示例 都 使 用 了 flags2_common.py 模块 ( 见 示例 A-10) 里 的 函数 。 


示例 A-10 flags2_common.py 
""" 为 后 续 flag 示 例 提供 实用 函数 。 





import os 

import time 

import sys 

import string 

import argparse 

from collections import namedtuple 
from enum import Enum 


Result = namedtuple('Result', 'status data') 


HTTPStatus = Enum('Status', 'ok not_found error') 


POP20_CC = ('CN IN US ID BR PK NG BD RU JP ' 
"MX PH VN ET EG DE IR TR CD FR').split() 


DEFAULT_CONCUR_REQ = 1 
MAX_CONCUR_REQ = 1 


SERVERS = { 
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} 


"REMOTE': 'http://flupy.org/data/flags', 
"LOCAL': 'http://localhost:8001/flags', 
"DELAY': 'http://localhost:8002/flags', 
"ERROR': 'http://localhost:8003/flags', 


DEFAULT_SERVER = 'LOCAL' 


DEST_DIR = 'downloads/' 
COUNTRY_CODES_FILE = 'country_codes.txt' 


def 


def 


def 


def 


save_flag(img, filename): 

path = os.path.join(DEST_DIR, filename) 

with open(path, 'wb') as fp: 
fp.write(img) 


initial_report(cc_list, actual_req, server_label): 
if len(cc_list) <= 10: 

cc_msg = ', '.join(cc_list) 
else: 

cc_msg = 'from {} to {}'.format(cc_list[0], cc_list[-1]) 
print('{} site: {}'.format(server_label, SERVERS[server_label])) 
msg = 'Searching for {} flag{}: {}' 
plural = 's' if len(cc_list) != 1 else '' 
print(msg.format(len(cc_list), plural, cc_msg)) 
plural = 's' if actual_req != 1 else '' 
msg = '{} concurrent connection{} will be used.' 
print(msg.format(actual_req, plural)) 


final_report(cc_list, counter, start_time): 

elapsed = time.time() - start_time 

print('-' * 20) 

msg = '{} flag{} downloaded.' 

plural = 's' if counter[HTTPStatus.ok] != 1 else '' 

print(msg.format(counter[HTTPStatus.ok], plural)) 

if counter[HTTPStatus.not_found]: 
print(counter[HTTPStatus.not_found], 'not found.') 

if counter[HTTPStatus.error]: 
plural = 's' if counter[HTTPStatus.error] != 1 else 
print('{} error{}.'.format(counter[HTTPStatus.error], plural)) 

print('Elapsed time: {:.2f}s'.format(elapsed) ) 


1 wt 


expand_cc_args(every_cc, all_cc, cc_args, limit): 
codes = set() 
A_Z = string.ascii_uppercase 
if every_cc: 

codes.update(at+tb for a in A_Z for b in A_Z) 
elif allicc: 

with open(COUNTRY_CODES_FILE) as fp: 

text = fp.read() 

codes.update(text.split()) 

else: 
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for cc in (c.upper() for c in cc_args): 

if len(cc) == 1 and cc in AZ: 
codes.update(cc+c for c in A_Z) 

elif len(cc) == 2 and all(c in A_Z for c in cc): 
codes.add(cc) 

else: 
msg = 'each CC argument must be A to Z or AA to ZZ.' 
raise ValueError('*** Usage error: '+msg) 

return sorted(codes)[:limit] 


def process_args(default_concur_req): 
server_options = ', '.join(sorted(SERVERS) ) 
parser = argparse.ArgumentParser ( 
description='Download flags for country codes. 
"Default: top 20 countries by population. ') 
parser.add_argument('cc', metavar='CC', nargs='*', 
help='country code or ist letter (eg. B for BA...BZ)') 
parser.add_argument('-a', '--all', action='store_true', 
help='get all available flags (AD to ZW)') 
parser.add_argument('-e', '--every', action='store_true', 
help='get flags for every possible code (AA...ZZ)') 
parser.add_argument('-1l', '--limit', metavar='N', type=int, 
help='Limit to N first codes', default=sys.maxsize) 
parser.add_argument('-m', '--max_req', metavar='CONCURRENT', type=int, 
default=default_concur_req, 
help='maximum concurrent requests (default={})' 
. format (default_concur_req) ) 
parser.add_argument('-s', '--server', metavar='LABEL', 
defauLt=DEFAULT_SERVER, 
help='Server to hit; one of {} (default={})' 
.format(server_options, DEFAULT_SERVER) ) 
parser.add_argument('-v', '--verbose', action='store_true', 
help='output detailed progress info') 
args = parser.parse_args() 
if args.max_req < 1: 
print('*** Usage error: --max_req CONCURRENT must be >= 1') 
parser.print_usage() 
sys.exit(1) 
if args.limit < 1: 
print('*** Usage error: --limit N must be >= 1') 
parser.print_usage() 
sys.exit(1) 
args.server = args.server.upper() 
if args.server not in SERVERS: 
print('*** Usage error: --server LABEL must be one of', 
server_options) 
parser.print_usage() 
sys.exit(1) 
try: 
cc_list = expand_cc_args(args.every, args.all, args.cc, args.limit) 
except ValueError as exc: 
print(exc.args[0]) 
parser.print_usage() 
sys.exit(1) 


1 
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def 


if not cc_list: 
cc_list = sorted(POP20_CC) 
return args, cc_list 


main(download_many, default_concur_req, max_concur_req): 
args, cc_list = process_args(default_concur_req) 
actual_req = min(args.max_req, max_concur_req, len(cc_list)) 
initial_report(cc_list, actual_req, args.server) 
base_url = SERVERS[args.server ] 
tO = time.time() 
counter = download_many(cc_list, base_url, args.verbose, actual_req) 
assert sum(counter.values()) == len(cc_list), \ 
"some downloads are unaccounted for' 
final_report(cc_list, counter, t0) 


flags2_sequential.py 脚本 ( 见 示例 A-11) 是 对 比 两 种 并 发 实现 的 基准 。flags2_threadpool.py 
脚本 ( 见 示例 17-14) 还 使 用 了 flags2_sequential.py 脚本 中 的 get_flag 和 download_one 两 


个 函数 。 


示例 A-11 flags2_sequential.py 
""" 下 载 多 个 国家 的 国旗 (包含 错误 处 理 代 码 ) 。 


依 序 下 载 版 




















运行 示例 :: 


$ python3 flags2_sequential.py -s DELAY b 
DELAY site: http://localhost:8002/flags 
Searching for 26 flags: from BA to BZ 

1 concurrent connection will be used. 

17 flags downloaded. 

9 not found. 

Elapsed time: 13.36s 


import collections 


import requests 
import tqdm 


from flags2_common import main, save_flag, HTTPStatus, Result 


DEFAULT_CONCUR_REQ = 1 


MAX 


CONCUR_REQ = 1 


# BEGIN FLAGS2_BASIC_HTTP_FUNCTIONS 


def 


get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = requests.get(url) 
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if resp.status_code != 200: 
resp.raise_for_status() 
return resp.content 


def download_one(cc, base_url, verbose=False): 
try: 
image = get_flag(base_url, cc) 
except requests.exceptions.HTTPError as exc: 
res = exc.response 


if res.status_code == 404: 
status = HTTPStatus.not_found 
msg = 'not found' 
else: 
raise 
else: 


save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: 
print(cc, msg) 


return Result(status, cc) 
# END FLAGS2_BASTC_HTTP_FUNCTIONS 


# BEGIN FLAGS2_DOWNLOAD_MANY_SEQUENTIAL 
def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() 
cc_iter = sorted(cc_list) 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) 
for cc in cc_iter: 
try: 
res = download_one(cc, base_url, verbose) 
except requests.exceptions.HTTPError as exc: 
error_msg = 'HTTP error {res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error' 
else: 
error_msg = 
status = res.status 


uw 


if error_msg: 
status = HTTPStatus.error 
counter[status] += 1 
if verbose and error_msg: 
print('*** Error for {}: {}'.format(cc, error_msg)) 


return counter 
# END FLAGS2_DOWNLOAD_MANY_SEQUENTIAL 
if _name == '_ main_': 

main(download_many, DEFAULT_CONCUR_REQ, MAX_CONCUR_REQ) 
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A.8 19%: 处 理 OSCON 日 程 表 的 脚本 和 








测试 


at 





示例 A-12 是 schedulel.py 模块 (示例 19-9) 的 测试 脚本 ， 使 用 py.test 库 和 测试 运行 程序 


示例 A-12 test_schedulel.py 


import shelve 
import pytest 


import schedule1 as schedule 


@pytest.yield_fixture 
def db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 
schedule. Load_db(the_db) 
yield the_db 


def test_record_class(): 
rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 
assert rec.eggs == 12 


def test_conference_record(db): 
assert schedule.CONFERENCE in db 


def test_speaker_record(db): 
speaker = db['speaker.3471'] 
assert speaker.name == ‘Anna Martelli Ravenscroft' 


def test_event_record(db): 
event = db['event.33950'] 
assert event.name == 'There *Will* Be Bugs' 


def test_event_venue(db): 
event = db['event.33950'] 
assert event.venue_serial == 1449 


19.1.5 节 分 四 部 分 列 出 了 schedule2.py 脚本 里 的 代码 ， 示 例 A-13 FE SEMEN (ONG 


I 





示例 A-13 schedule2.py 


schedule2.py: 遍历 0SCON 的 日 程 数据 


>>> import shelve 
>>> db = shelve.open(DB_NAME) 
>>> if CONFERENCE not in db: load_db(db) 


o 
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# BEGIN SCHEDULE2_DEMO 


>>> DbRecord.set_db(db) 
>>> event = DbRecord.fetch('event.33950') 
>>> event 
<Event 'There *Will* Be Bugs'> 
>>> event.venue 
<DbRecord serial='venue.1449'> 
>>> event.venue.name 
"Portland 251' 
>>> for spkr in event.speakers: 
print('{0.serial}: {0.name}'.format(spkr)) 


speaker .3471: Anna Martelli Ravenscroft 
speaker .5199: Alex Martelli 


# END SCHEDULE2_DEMO 


>>> db.close() 


# BEGIN SCHEDULE2_RECORD 
import warnings 
import inspect 


import osconfeed 


DB_NAME = 'data/schedule2_db' 
CONFERENCE = 'conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self.__dict__.update(kwargs) 


def _eq_ (self, other): 
if isinstance(other, Record): 
return self.__dict__ == other. __dict__ 
else: 
return NotImplemented 
# END SCHEDULE2_RECORD 


# BEGIN SCHEDULE2_DBRECORD 
class MissingDatabaseError(RuntimeError): 
"""Raised when a database is required but was not set. 


class DbRecord(Record): 
__db = None 


@staticmethod 
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def set_db(db): 
DbRecord.__db = db 


@staticmethod 
def get_db(): 
return DbRecord.__db 


@classmethod 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ident] 
except TypeError: 
if db is None: 
msg = "database not set; call '{}.set_db(my_db)'" 
raise MissingDatabaseError(msg.format(cls.__name__)) 
else: 
raise 


def __repr__ (self): 
if hasattr(self, 'serial'): 
cls_name = self.__class__.__name__ 
return '<{} serial={!r}>'.format(cls_name, self.serial) 
else: 
return super().__repr__() 
# END SCHEDULE2_DBRECORD 


# BEGIN SCHEDULE2_EVENT 
class Event(DbRecord): 


@property 
def venue(self): 
key = 'venue.{}'.format(self.venue_seriaL) 


return self.__class__.fetch(key) 
@property 
def speakers(self): 
if not hasattr(self, '_speaker_objs'): 
spkr_serials = self.__dict__['speakers'] 
fetch = self.__class__. fetch 
self._speaker_objs = [fetch('speaker.{}'.format(key) ) 
for key in spkr_serials] 
return self. _speaker_objs 


def __repr__ (self): 
if hasattr(self, 'name'): 
cls_name = self.__class__.__name__ 
return '<{} {!r}>'.format(cls_name, self.name) 
else: 
return super().__repr__() 
# END SCHEDULE2_EVENT 


# BEGIN SCHEDULE2_LOAD 
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def 


Load_db(db) : 
raw_data = osconfeed.load() 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): 
record_type = collection[:-1] 
cls_name = record_type.capitalize() 
cls = globals().get(cls_name, DbRecord) 
if inspect.isclass(cls) and issubclass(cls, DbRecord): 
factory = cls 
else: 
factory = DbRecord 
for record in rec_list: 
key = '{}.{}'.format(record_type, record['serial']) 
record[ 'serial'] = key 
db[key] = factory(**record) 


# END SCHEDULE2_LOAD 


示例 A-14 使 用 py. test 测试 示例 A-13。 


示例 A-14 test_schedule2.py 


import shelve 
import pytest 


import schedule2 as schedule 


@pytest.yield_fixture 


def 


def 


def 


def 


def 


db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 
schedule. lLoad_db(the_db) 
yield the_db 


test_record_attr_access(): 

rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 

assert rec.eggs == 12 


test_record_repr(): 

rec = schedule.DbRecord(spam=99, eggs=12) 
assert 'DbRecord object at 0x' in repr(rec) 
rec2 = schedule.DbRecord(serial=13) 

assert repr(rec2) == "<DbRecord serial=13>" 


test_conference_record(db): 
assert schedule.CONFERENCE in db 


test_speaker_record(db): 
speaker = db['speaker.3471'] 
assert speaker.name == 'Anna Martelli Ravenscroft' 
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def 


def 


def 


def 


def 


def 


test_missing_db_exception(): 
with pytest.raises(schedule.MissingDatabaseError): 
schedule.DbRecord. fetch('venue.1585') 


test_dbrecord(db): 
schedule.DbRecord.set_db(db) 

venue = schedule.DbRecord. fetch('venue.1585') 
assert venue.name == ‘Exhibit Hall B' 


test_event_record(db): 
event = db['event.33950'] 
assert repr(event) == "<Event 'There *Will* Be Bugs'>" 


test_event_venue(db): 
schedule. Event.set_db(db) 
event = db['event.33950' ] 


assert event.venue_serial == 1449 

assert event.venue == db['venue.1449' ] 
assert event.venue.name == ‘Portland 251' 
test_event_speakers(db): 


schedule. Event.set_db(db) 
event = db['event.33950' ] 


assert len(event.speakers) == 2 

anna_and_alex = [db['speaker.3471'], db['speaker.5199']] 
assert event.speakers == anna_and_alex 
test_event_no_speakers(db): 


schedule. Event.set_db(db) 
event = db['event.36848' ] 
assert len(event.speakers) == 0 





Tal 
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Python RER 





当然 ， 这 里 列 出 的 很 多 术语 不 是 Python 专用 的 ， 不 过 某 些 术语 的 定义 对 Python 社区 有 特 

殊 的 意义 。 

此 外 ， 也 可 以 参阅 官方 的 Python 词汇 表 (https://docs.python.org/3/glossary.html) 。 

ABC 编程 语言 
Leo Geurts、Lambert Meertens 和 Steven Pemberton 创造 的 一 门 编程 语言 。20 世纪 80 年 
代 ，Python 之 父 Guido van Rossum 是 实现 ABC 环境 的 程序 员 。Python 的 一 些 特 色 出 自 
ABC， 例 如 使 用 缩 进 划分 块 、 内 置 元 组 和 字典 、 元 组 拆 包 、for 循环 的 语义 ， 以 及 对 所 
有 序列 类 型 的 统一 处 理 方式 。 

BDFL 


Benevolent Dictator For Life 的 简称 ， 意 为 “仁慈 的 独裁 者 ”， 指 代 Python 之 父 Guido 
van Rossum, 

BOM 
Byte Order Mark 的 简称 ， 意 为 “ 字 节 序 标记 ”， 指 可 能 出 现在 UTF-16 编码 文件 开头 
的 字 节 序列 。BOM 是 U+FEFF 字符 ( 零 宽 不 换行 空格 )， 在 大 字 节 序 的 CPU 中 ， 编 
码 成 b'\xfe\xff'， 在 小 字 节 序 的 CPU 中 ， 编 码 成 b'\xff\xfe'。 因 为 Unicode 中 没有 
U+FFFE 字符 ， 所 以 这 些 字 节 的 作用 只 有 一 个 一 一 表示 编码 方式 使 用 的 字 节 序 。 虽 然 多 
余 ， 但 是 在 UTF-8 文件 中 可 能 会 找到 编码 成 b'\xef\xbb\xbf' 的 BOM. 

CPython 
标准 的 Python 解释 器 ， 使 用 C 语言 实现 。 讨 论 不 同 实现 特有 的 行为 ， 以 及 多 个 可 用 的 
Python 解释 器 (如 PyPy) 时 才 会 使 用 这 个 术语 。 
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CRUD 


Create, Read, Update, Delete 的 首 字 母 缩 写 ， 这 是 存储 记录 的 应 用 程序 中 的 四 种 基本 
操作 。 

doctest 
一 个 模块 ， 其 中 的 函数 能 解析 并 运行 Python 模块 或 纯 文 本 文件 的 文档 字符 串 中 内 艇 的 
示例 。 也 可 以 在 命令 行 中 使 用 ， 如 下 所 示 : 


python -m doctest module_with_tests.py 




















DRY 


Don’t Repeat Yourself (不 要 自我 重复 ) 的 缩写 ， 一 种 软件 工程 原则 ， 意 思 是 :“ 系 统 
中 的 每 一 项 知识 都 必须 具有 单一 、 无 歧义 、 权 威 的 表示 。 ”首先 由 Andy Hunt 与 Dave 
Thomas 的 《程序 员 修 炼 之 道 : 从 小 工 到 专家 》 一 书 提出 。 
dunder 
首尾 有 两 条 下 划 线 的 特殊 方法 和 属性 的 简洁 读 法 ( 即 把 len 读 成 “dunder len”), 
dunder 方 法 
参见 dunder 和 特殊 方法 词 条 。 
EAFP 
“it’s easier to ask forgiveness than permission”( 取 得 原谅 比 获得 许可 容易 ) 的 首 字母 缩 
写 。 人 们 认为 这 句 话 是 计算 机 先驱 Grace Hopper 说 的 ，Python 程序 员 使 用 这 个 缩写 
指 代 一 种 动态 编程 方式 ， 例 如 访问 属性 前 不 测试 有 没有 属性 ， 如 果 没 有 就 捕获 异常 。 
hasattr 函数 的 文档 字符 串 是 这 样 描述 它 的 工作 方式 的 :“ 调 用 getattr(object, name), 
然后 捕获 AttributeError 异常 。” 
































genexp 
generator expression (生成 器 表达 式 ) 的 简称 。 
GoF 书 


指 代 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 ， 作 者 是 四 个 人 ， 被 称 为 “四 人 组 ” 
(Gang of Four，GoF)， 包 括 Erich Gamma, Richard Helm, Ralph Johnson 和 John Vlissides. 


KISS 原则 
KISS 是 “Keep It Simple, Stupid” 的 首 字母 缩写 。 这 个 原则 要 求 尽 量 寻 找 最 简单 的 方 
案 ， 尽 量 减 少 可 变 部 分 。 这 个 警句 是 Kelly Johnson 首创 的 。Kelly 是 一 位 多 才 多 艺 的 航 
空 工程 师 ， 在 真实 存在 的 51 区 工作 ， 设 计 出 了 20 世纪 最 先进 的 几 架 航天 飞机 。 


listcomp 


list comprehension (列表 推导 ) 的 简称 。 
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ORM 
Object-Relational Mapper (对 象 关系 映射 器 ) 的 缩写 ， 通 过 这 种 API 可 以 使 用 Python 类 
和 对 象 访 问 数据 库 中 的 表 和 记录 ， 而 且 调 用 方法 可 以 执行 数据 库 操 作 。SQLAlchemy 是 
流行 的 独立 Python ORM, Django 和 Web2py 自 带 了 ORM. 

PyPI 
Python 包 索 引 (https://pypi.python.org/)， 里 面 有 超过 60 000 个 包 可 用 。 也 叫 奶 酷 店 
(参见 奶 酷 店 词 条 )。 为 了 防止 与 PyPy 混淆 ，PyPI 应 该 读 作 “pie-P-eye”。 

PyPy 
Python 编程 语言 的 另 一 种 实现 ， 使 用 一 个 工具 链 把 部 分 Python 编译 成 机 器 码 ， 因 此 
解释 器 的 源码 其 实 是 使 用 Python 编写 的 。PyPy 还 提供 了 JIT， 即 时 把 用 户 的 程序 编译 
成 机 器 码 一 一 与 Java VM 的 作用 相同 。 根 据 PyPy 公布 的 基准 测试 (http://speed.pypy. 
org/)， 从 2014 年 11 月 起 ，PyPy 平 均 比 CPython 快 6.8 倍 。 为 了 防止 与 PyPI 温 淆 ， 
PyPy 应 该 读 作 “pie-pie . 
































Pythonic 
用 于 赞扬 符合 Python 风格 的 代码 ， 即 充分 利用 Python 语言 的 特性 ， 写 出 简洁 明了 、 可 
读 性 强 ， 通 常 运行 速度 也 快 的 代码 。 还 指 API 符合 Python 高 手 的 编程 方式 。 参 见 惯用 
向 法 词 条 。 

Python 之 禅 
从 Python 2.2 起 ， 在 Python 控制 台中 输入 import this 后 看 到 的 输出 。 

REPL 
read-eval-print loop ( 读 取 一 求 值 一 输出 循环 ) 的 简称 ， 一 种 交互 式 控 制 台 ， 如 标准 的 
python 或 非 主 流 的 ipython 和 bpython， 以 及 Python Anywhere. 

YAGNI 
You Ain’t Gonna Need It (你 不 需要 这 个 ) 的 首 字 母 缩 写 ， 这 个 口号 的 意思 是 ， 根 据 对 
未 来 需求 的 预测 ， 不 要 实现 非 立即 需要 的 功能 。 

HEDA (bound method) 
通过 实例 访问 的 方法 会 绑 定 到 那个 实例 上 。 方 法 其 实 是 描述 符 ， 访 癌 方法 时 ， 会 返回 一 
个 包装 自身 的 对 象 ， 把 方法 绑 定 到 实例 上 。 那 个 对 象 就 是 绑 定 方法 。 调 用 绑 定 方法 时 ， 
可 以 不 传人 self 的 值 。 例 如 ， 像 my_method = my_obj.method 这 样 赋值 之 后 ， 可 以 通过 
my_method() 调用 绑 定 方法 。 请 与 非 绑 定 方法 相 比较 。 


编码 解码 器 (codec) 


(编码 器 / 解码 器 ) 提供 编码 和 解码 函数 的 模块 ， 通 常 在 str 和 bytes 之 间 转 换 ， 不 过 
Python 也 提供 了 在 bytes 和 bytes， 以 及 str 和 str 之 间 转 换 的 编码 解码 器 。 
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变 值 方法 (mutator) 
参见 存 取 方法 词 条 。 
别名 (aliasing) 


为 同一 个 对 象 指 定 两 个 或 多 个 名 称 。 例 如 , 在 a = []; b = a 中 ,，a 和 b 是 别名 ， 指 向 
同一 个 列表 对 象 。 对 于 把 对 象 引用 存储 在 变量 中 的 语言 来 说 ， 别 名 无 处 不 在 。 为 了 避免 
混淆 ， 要 气 弃 这 种 想法 变量 是 存储 对 象 的 盒子 〈 毕 竞 同一 个 对 象 不 可 能 放 在 两 个 盒子 
里 )。 我 们 要 把 变量 看 做 对 象 的 标注 (一 个 对 象 可 以 有 多 个 标注 )。 

并 行 赋 值 (parallel assignment) 


使 用 类 似 a，b = [c, d] 这 样 的 句法 ， 把 可 迭代 对 象 中 的 元 素 赋 值 给 多 个 变量 ， 也 叫 解 
构 赋 值 。 这 是 元 组 拆 包 的 常见 用 途 。 


抽象 基 类 (abstract base class, ABC) 


无 法 实例 化 ， 只 能 扩展 的 类 。Python 通过 ABC 实现 接口 。 除 了 继承 ABC 之 外 ， 类 还 
可 以 注册 成 为 ABC 的 虚拟 子 类 ， 声 明 自 己 实现 了 接口 。 


初始 化 方法 (initializer) 
init 方法 更 贴切 的 名 称 (取代 构造 方法 )。__init_ 方法 的 任务 是 初始 化 通过 self 
参数 传人 的 实例 。 实 例 其 实 是 由 _new ”方法 构建 的 。 参 见 构造 方法 词 条 。 

储存 属性 (storage attribute) 
托管 实例 中 的 属性 ， 用 于 存储 由 描述 符 管 理 的 属性 的 值 。 另 见 托管 属性 词 条 。 

存 取 方 法 (accessor) 


用 于 存 取 单 个 数据 属性 的 方法 。 有 些 作者 把 在 取 方 法 当 作 通用 术语 使 用 ， 包 括 读 值 方法 
和 设 值 方法 ， 另 一 些 作 者 则 用 存 取 方 法 指 代 读 值 方法 ， 而 用 变 值 方法 指 代 设 值 方法 。 


代码 异味 (code smell) 


一 种 代码 形式 ， 表 明 程 序 的 设计 可 能 有 问题 。 例 如 ， 过 度 使 用 isinstance 检查 具体 的 
类 是 一 种 代码 异味 ， 因 为 这 样 会 导致 程序 以 后 难以 扩展 ， 无 法 处 理 新 类 型 。 


单 例 (singleton) 
个 类 唯一 存在 的 实例 一 一 这 通常 不 是 巧合 ， 而 是 故意 为 之 ， 防 止 类 创建 多 个 实例 。 有 
一 种 设计 模式 就 叫 单 例 模 式 ， 指 明 如 何 编写 这 样 的 类 。 在 Python 中 ，None 对 象 是 单 例 。 
SAR (import time) 
Python 解释 器 加 载 模块 ， 从 上 到 下 计算 ， 把 里 面 的 代码 编译 成 字 节 码 之 后 ， 开 始 执行 
模块 的 那 一 刻 。 类 和 国 数 在 此 时 定义 ， 变 成 真实 存在 的 对 象 。 装 饰 器 也 在 此 时 执行 。 
迭代 器 (iterator) 


实现 了 无 参数 方法 next 的 对 象 ， 这 个 方法 返回 级 数 里 的 下 一 个 元 素 ， 如 果 没 有 元 
素 了 就 抛 出 StopIteration 异常 。 在 Python F, KREEKA T _iter 方法 ， 因 此 
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迁 代 器 也 是 可 选 代 的 对 象 。 根 据 最 初 的 设计 模式 ， 经 典 友 代 器 返回 集合 里 的 元 素 。 生 成 
器 也 是 迭代 器 ， 不 过 更 灵活 。 参 见 生成 器 词 条 。 


IBERIA (lazy) 

间 可 迭代 的 对 象 按 需 生 成 元 素 。 在 Python 中 ， 生 成 器 会 惰性 求 值 。 请 与 及 早 求 值 相 比 较 。 
二 进 制 序列 (binary sequence) 

一 个 通用 术语 ， 表 示 元 素 是 二 进 制 数据 的 序列 类 型 。 内 置 的 二 进 制 序列 类 型 有 byte, 


bytearray 和 memoryview。 











泛 函 数 (generic function) 
以 不 同 的 方式 为 不 同类 型 的 对 象 实现 相同 操作 的 一 组 国 数 。 从 Python 3.4 起 ， 创 建 泛 函数 
的 标准 方式 是 使 用 functools.singledispatch 装饰 器 。 在 其 他 语言 中 ， 这 叫 多 分 派 方法 。 
非 绑 定 方法 (unbound method) 
直接 通过 类 访问 的 实例 方法 没有 绑 定 到 特定 的 实例 上 ， 因 此 把 这 种 方法 称 为 “ 非 绑 定 方 


法 "。 知 想 成 功 调用 非 绑 定 方法 ， 必 须 显 式 传 人 类 的 实例 作为 第 一 个 参数 。 那 个 实例 会 
赋值 给 方法 的 self 参数 。 参 见 绑 定 方法 词 条 


非 覆盖 型 描述 符 (nonoverriding descriptor) 


未 实现 _set “方法 的 描述 符 ， 不 干涉 托管 实例 中 托管 属性 的 设置 。 因 此 ， 托 管 实例 中 
re a nd 也 叫 非 数据 描述 符 或 遮盖 型 描述 符 。 请 与 履 盖 型 描 
述 符 相 比 较 。 


覆盖 型 描述 符 (overriding descriptor) 

















KAT set 方法 的 描述 符 ， 设 置 托管 实例 中 的 托管 属性 时 会 遭 到 拦截 并 覆盖 相关 操 
作 。 也 叫 数 据 描述 符 或 强制 描述 符 。 请 与 非 徐 盖 型 描述 符 相 比较 。 


高 阶 函 数 (higher-order function) 














以 其 他 国 数 为 参数 的 国 数 ， 例 如 sorted, map 和 filter, 或 者 ， 返 回 值 为 函数 的 函数 ， 
例如 Python 中 的 装饰 器 


构造 方法 (constructor) 
类 的 init 实例 方法 称 为 类 的 构造 方法 ， 因 为 这 个 方法 的 语义 类 似 于 Java 中 的 构造 方 
法 。 然 而 ， 这 样 称呼 并 不 规范 ，_init_ 更 应 该 称 为 初始 化 方法 ， oie 
例 ， 而 是 把 实例 传 给 self 参数 。Python Æ _init “方法 之 前 调用 的 _new_ 类 方法 更 合 
平 构造 方法 这 个 术语 ，_new_ “方法 才 会 创建 实例 并 将 其 返回 。 Sie ae 
惯用 句法 (idiom) 
根据 普林斯顿 大 学 WordNet 字典 的 定义 ， 惯 用 句法 指 “ 说 母语 的 人 说 话 的 方式 ”。 
函数 (function) 


严格 来 说 ， 是 指 def 块 或 lambda 表达 式 计 算得 到 的 对 象 。 通 常 ， 函 数 这 个 词 用 于 表示 
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任何 可 调用 的 对 象 ， 例 如 方法 ， 有 了 时 其 至 表示 类 。 官 方 文档 中 的 内 置 函数 列表 (http:/ 
docs.python.org/library/functions.html) 列 出 了 几 个 内 置 的 类 ， 例 如 dict, range Fil str, 
另 见 可 调用 的 对 象 词 条 。 

猴子 补丁 (monkey patching) 
在 运行 时 动态 修改 模块 、 类 或 函数 ， 通 常 是 添加 功能 或 修正 缺陷 。 猴 子 补丁 在 内 存 中 发 
挥 作 用 ， 不 会 修改 源码 ， 因 此 只 对 当前 运行 的 程序 实例 有 效 。 因 为 猴子 补丁 破坏 了 封 
装 ， 而 且 容易 导致 程序 与 补丁 代码 的 实现 细节 紧密 看 合 ， 所 以 被 视 为 临时 的 变通 方案 ， 
不 是 集成 代码 的 推荐 方式 。 

混入 方法 (mixin method) 
抽象 基 类 或 混入 类 中 方法 的 具体 实现 。 

混入 类 (mixin class) 


用 于 随 着 多 重 继承 类 树 中 的 一 个 或 多 个 类 一 起 扩展 的 类 。 混 入 类 绝 不 能 实例 化 ， 它 的 具 
体 子 类 也 应 该 是 其 他 非 混入 类 的 子 类 。 


活性 (liveness) 


异步 系统 、 线 程 系 统 或 分 布 式 系统 在 “期 待 的 事情 终于 发 生 ”( 即 虽然 期 待 的 计算 不 会 立 
即 发 生 ， 但 最 终 会 完成 ) 时 展现 出 来 的 特性 叫 活 性 。 如 果 系 统 死 锁 了 ， 活 性 也 就 没有 了 。 


及 早 求 值 (eager) 


指 可 返 代 对 象 一 次 构建 好 全 部 元 素 。 在 Python 中 ， 列 表 推 导 会 及 早 求 值 。 请 与 惰性 求 
值 相 比较 。 


集合 (collection) 
泛 指 由 元 素 组 成 ， 可 以 单独 访问 各 个 元 素 的 数据 结构 。 有 些 集合 可 以 包含 任意 类 型 的 对 
R (参见 容器 词 条 )， 有 些 则 只 能 包含 一 种 原子 类 型 的 对 象 (参见 平坦 序列 词 条 )。list 
和 bytes 都 是 集合 ， 只 不 过 List 是 容器 ， 而 bytes 是 平坦 序列 。 

假 值 (falsy) 
只 要 bool(x) 返回 False, x 就 是 假 值 。 需 要 布尔 值 时 ，Python 会 隐 式 使 用 bool 计算 对 
象 ， 例 如 控制 if 和 while 循环 的 表达 式 。 与 此 相对 的 是 真 值 (truthy)。 

尽早 失败 (fail-fast) 
一 种 系统 设计 方式 ， 建 议 应 该 尽早 报告 错误 。Python 比 其 他 大 多 数 动 态 编程 语言 更 遵守 
这 一 原则 。 例 如 ，Python FRA “REL” WE: 在 初始 化 之 前 引用 变量 会 报错 ， 如 果 
k 不 存在 ，my_dict[k] 会 抛 出 异常 (JavaScript 则 不 然 )。 还 有 一 例 , 在 Python 中 通过 元 组 
拆 包 做 并 行 赋值 ， 必 须 显 式 处 理 元 组 的 每 一 个 元 素 才 行 ， 而 在 Ruby 中， 如果 = 两 边 的 元 
素数 量 不 一 致 ， 右 边 未 用 到 的 元 素 会 被 包 略 ， 或 者 把 nil 赋 给 左边 多 余 的 变量 。 

可 迭代 的 Citerable) 
使 用 内 置 的 iter 国 数 可 以 从 中 获得 运 代 器 的 对 象 。 可 迭代 的 对 象 为 for 循环 、 列 表 推 
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导 和 元 组 拆 包 提供 元 素 。 如 果 对 象 的 iter FSH, ewe AIH 
象 。 序 列 都 是 可 返 代 的 对 象 ， 此外， 实现 _getitem_“ 方 法 的 对 象 也 是 可 迭代 的 对 象 。 


可 和 迭代 对 象 的 拆 包 (〈iterable unpacking) 
元 组 拆 包 更 现代 、 更 精确 的 同义词 。 另 见 并 行 赋值 词 条 
可 散 列 的 〈hashable) 


在 散 列 值 永 不 改变 ， 而 且 如 果 a == b， 那 么 hash(a) == hash(b) 也 是 True 的 情况 下 ， 
如 果 对 象 既 有 __hash_ 方 法， 也 有 eq 方法， 那么 这 样 的 对 象 称 为 可 散 列 的 对 象 。 
在 内 置 的 类 型 中 ， 大 多 数 不 可 变 的 类 型 都 是 可 散 列 的 ;但 是 ， 仅 当 元 组 的 每 一 个 元 素 都 
是 可 散 列 的 时 ， 元 组 才 是 可 散 列 的 。 


可 调用 的 对 象 (callable object) 


可 以 使 用 调用 运算 符 O 调用 ， 能 返回 结果 或 执行 某 项 操作 的 对 象 。 在 Python 中 ， 可 调 
用 的 对 象 有 七 种 : 用户 定义 的 函数 、 内 置 的 函数 、 内 置 的 方法 、 实 例 方法 、 生 成 器 函 
数 、 类 ， 还 有 实现 特殊 方法 cal 的 类 的 实例 。 


类 (class) 
定义 新 类 型 的 程序 结构 ， 里 面 有 数据 属性 ， 以 及 用 于 操作 数据 属性 的 方法 。 参 见 类 型 词 


条 。 


类 型 (type) 


程序 中 的 各 种 数据 ， 限 定 可 取 的 值 和 可 对 数据 做 的 操作 。 有 些 Python 类 型 近似 于 机 器 
数据 类 型 (例如 Float 和 bytes), EE e ge a (例如 ，int 不 受 
CPU 字 长 的 限制 ，str 包含 多 字 节 Unicode 数据 码 位 ) 和 特别 高 层 的 抽象 (例如 dict, 
deque， 等 等 )。 类 型 分 为 两 类 : a ee ee 在 Python 2.2 统 
一 类 型 和 类 之 前 ， 类 型 和 类 是 不 同 的 实体 ， 用 户 定义 的 类 不 能 扩展 内 置 的 类 型 。 而 在 那 
之 后 ， 内 置 的 类 型 和 新 式 类 兼容 了， 类 是 type 的 实例 。 在 Python 3 中 ， 所 有 类 都 是 新 
式 类 。 参 见 类 和 元 类 词 条 。 
列表 推导 (list comprehension) 


放 在 方 括号 里 的 表达 式 ， 使 用 关键 字 for 和 iin， 通过 处 理 和 过 滤 一 个 或 多 个 可 迭代 对 
象 里 的 元 素 构建 列表 。 列 表 推 导 会 及 早 求 值 。 参 见 及 早 求 值 词 条 。 
码 位 (code point) 
介 于 0~0x10FFFF 之 间 的 整数 ， 用 于 标识 Unicode 字符 数据 库 中 的 字符 。 截 至 Unicode 
7.0， 所 有 码 位 中 只 有 不 到 3% 指定 了 字符 。 在 Python 文档 中 ， 这 个 术语 可 能 拼 成 一 个 
词 ， 也 可 能 拼 成 两 个 词 。 例 如 ， 在 Python 标准 库 参 考 手册 的 “2. Built-in Functions” 一 章 
(http://docs.python.org/library/functions.html) 中 ， 说 char 函数 的 参数 是 一 个 整数 “ 码 位 ” 
(codepoint) ， 却 说 作用 相反 的 ord 函数 返回 一 个 “Unicode 码 位 ”(Unicode code point) 。 
描述 符 (descriptor) 


一 个 类 ,实现 _get _、__set _ 和 __delete__ 特殊 方法 中 的 一 个 或 多 个 ， 其 实例 作为 
















































































594 | Python 术语 表 


另 一 个 类 (托管 类 ) 的 类 属性 。 描 述 符 管理 托管 类 中 托管 属性 的 存 取 和 删除 ， 数 据 通常 
存储 在 托管 实例 中 。 
名 称 改写 (name mangling) 
Python 解释 器 在 运行 时 自动 把 私有 属性 _x 重 命名 为 MyClass x, 
魔术 方法 (magic method) 
同 特殊 方法 。 
奶 酷 店 (Cheese Shop) 


Python 包 索 引 (Python Package Index, PyPI, https://pypi.python.org/pypi) 原来 的 名 称 ， 以 
“ 巨 蟒 剧 团 ” 表 演 的 幽默 短 剧 《 奶 酷 店 》 命 名 。 虽 然 是 奶酪 店 ， 但 是 店 里 却 什 么 奶 酷 都 没 
有 。 写 作 本 书 时 ，https://cheeseshop.python.org 这 个 别名 链接 还 有 效 。 参 见 PyPI 词 条 。 

内 置 函 数 (built-in function, BIF) 
PE Python 解释 器 一 起 提供 的 函数 ， 使 用 底层 实现 语言 (也 就 是 说 ，CPython 用 C 语言 ， 
Jython 用 Java， 以 此 类 推 ) 编写 。 这 个 术语 通常 指 代 无 需 导 入 就 能 使 用 的 函数 ， 参 见 
Python 标准 库 参 考 手 册 中 的 “2. Built-in Functions” 一 介 (http://docs.python.org/library/ 
functions.html)。 不 过 ， 内 置 的 模块 (如 sys、math、re 等 ) 也 包含 内 置 函数 。 

平坦 序列 (flat sequence) 


这 种 序列 类 型 存储 的 是 元 素 的 值 本 身 ， 而 不 是 其 他 对 象 的 引用 。 内 置 的 类 型 中 ， 
str, bytes, bytearray, memoryview 和 array.array 是 平坦 序列 ; mj list, tuple 和 


Hoey AR 


collections .deque 是 容器 序列 。 参 见 容 器 词 条 。 

浅 复制 (shallow copy) 
一 种 对 象 副本 ， 引 用 源 对 象 的 全 部 属性 对 象 。 请 与 深 复 制 相 比 较 。 另 见 别名 词 条 。 

强 引 用 (strong reference) 
让 对 象 始 终 存在 于 Python 中 的 引用 。 请 与 弱 引 用 相 比 较 。 

WH (slicing) 
使 用 切片 表示 法 生成 序列 的 子 集 ， 例 如 my_sequence[2:6]。 切 片 经 常 复制 数据 ， 生 成 新 
对 象 ， 然 而 ，my_sequence[:] 是 对 整个 序列 的 浅 复制 。 不 过 ，memoryview 对 象 的 切片 虽 
是 一 个 memoryview 新 对 象 ， 但 会 与 源 对 象 共享 数据 。 

容器 (container) 
包含 其 他 对 象 引 用 的 对 象 。Python 中 的 大 多 数 集合 类 型 都 是 容器 ， 不 过 有 些 不 是 。 请 
与 平坦 序列 相 比 较 ， 这 种 序列 是 集合 ， 但 不 是 容器 。 

弱 引 用 (weak reference) 
一 种 特殊 的 对 象 3| 用 方式 ， 不 计 入 指示 对 象 的 引用 计数 。 弱 引用 使 用 weakref 模块 里 的 
某 个 函数 和 数据 结构 创建 。 
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上 下 文 管理 器 (context manager) 
实现 了 __enter_ Fl __exit__ 特殊 方法 的 对 象 ， 在 with 块 中 使 用 。 

蛇 底 式 (snake_case) 
标识 符 的 一 种 命名 约定 ， 使 用 下 划 线 (_) 连接 单词 ， 例 如 run_until_complete。PEP-8 
把 这 种 风格 称 为 “使 用 下 划 线 分 隔 的 小 写 单词 "， 建 议 用 于 命名 函数 、 方 法 、 参 数 和 变 
量 。PEP-8 建议 包 名 直接 把 各 个 单词 拼接 起 来 ， 不 使 用 分 隔 符 。Python 标准 库 中 有 很 
多 使 用 蛇 底 式 命名 的 标识 符 ， 不 过 也 有 单词 之 间 没 有 分 隔 的 标识 符 (例如 ，getattr、 


classmethod、isinstance、str.endswith， 等 等 )。 参 见 驼 峰 式 词 条 。 




















深 复制 (deep copy) 
复制 对 象 时 把 对 象 的 所 有 属性 一 起 复制 。 请 与 浅 复制 相 比 较 。 

生成 器 (generator) 
使 用 生成 器 函数 或 生成 器 表达 式 构 建 的 迭代 器 ， 无 需 迭 代 集 合 就 可 能 生成 值 。 生 成 翡 波 
纳 契 数列 的 生成 器 是 个 典型 示例 ， 这 是 一 种 无 穷 数 列 ， 在 集合 中 绝对 放 不 下 。 这 个 术语 
除了 表示 调用 生成 器 函数 得 到 的 对 象 之 外 ， 有 时 还 表示 生成 器 函数 。 

生成 器 表达 式 (generator expression) 
放 在 括号 里 的 表达 式 ， 句 法 与 列表 推导 一 样 ， 不 过 返回 的 不 是 列表 ， 而 是 生成 器 。 生 成 
器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 。 参 见 情 性 求 值 词 条 。 

生成 器 函数 (generator function) 
定义 体 中 有 yield 关键 字 的 函数 。 调 用 生成 器 函数 得 到 的 是 生成 器 。 

实 参 (argument) 
调用 函数 时 传 给 函数 的 表达 式 。 按 照 Python 习惯 的 说 法 ， 实 参 和 形 参 几乎 等 价 。 关 于 
二 者 的 区 别 以 及 各 自 的 用 途 ， 参 见 形 参 词 条 。 

视图 (view) 

JE Python 3 中 ， 视 图 是 一 种 特殊 的 数据 结构 ， 由 字典 的 .keys()、.values() 

和 .items() 方法 返回 ， 作 用 是 在 不 重复 数据 的 前 提 下 ， 提 供 字 典 的 键 和 值 的 动态 视图 。 

在 Python 2 中 ， 那 些 方法 返回 的 是 列表 。 字 典 视图 都 是 可 迭代 的 对 象 ， 支 持 in 运算 符 。 
此 外 ， 如 果 视 图 引用 的 元 素 都 是 可 散 列 的 对 象 ， 那 么 视图 还 实现 了 collections.abc. 
Set 接口 。.keys() 方法 返回 的 视图 都 是 这 样 ， 对 .items() 方法 返回 的 视图 来 说 ， 如 果 
其 中 的 值 都 是 可 散 列 的 对 象 ， 那 么 也 是 如 此 。 

视 为 有 害 (considered harmful) 
Edsger Dijkstra 写 过 一 封 题 为 “Go To Statement Considered Harmful” 的 信函 ， 这 为 批评 
计算 机 科学 技术 的 文章 提供 了 一 种 标题 格式 。 维 基 百 科 中 的 “Considered harmful” 一 
X (http://en.wikipedia.org/wiki/Considered_harmful) 列 出 了 很 多 这 种 文章 ， 包 括 Eric A. 
Meyer 写 的 “Considered Harmful Essays Considered Harmful” (http://meyerweb.com/eric/ 



















































































comment/chech.html) 。 
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属性 (attribute) 
在 Python 中 ， 方 法 和 数据 属性 (Bll Java 术语 中 的 “字段 ”) 都 是 属性 。 方 法 也 是 属性 ， 
只 不 过 恰好 是 可 调用 的 对 象 (通常 是 函数 ， 但 也 不 一 定 )。 

特殊 方法 (special method) 
名 称 特 殊 的 方法 ， 首 尾 各 有 两 条 下 划 线 ， 例 如 __getitem_, Python 中 的 特殊 方法 
几乎 都 在 Python 语言 参考 手册 中 的 “3. Data model” 一 章 (https://docs.python.org/3/ 
reference/datamodel.html) 做 了 说 明 ， 不 过 在 特定 上 下 文中 使 用 的 个 别 特殊 方法 在 文 
档 的 其 他 部 分 里 说 明 。 例 如 ， 映 射 的 __missing__ 方 法 在 Python 标准 库 文 档 的 “4.10. 
Mapping Types” 一 节 (https://docs.python.org/3/library/stdtypes.html#mapping-types-dict) 
提 到 。 

统一 访问 原则 Cuniform access principle) 
Eiffel 语言 之 父 Bertrand Meyer 写 道 :“ 不 管 服务 是 由 存储 还 是 计算 实现 的 ， 一 个 模块 提 

供 的 所 有 服务 都 应 该 通过 统一 的 方式 使 用 。 在 Python 中 ， 可 以 使 用 特性 和 描述 符 实 现 
统一 访问 原则 。 由 于 没有 new 运算 符 ， 国 数 调 用 和 对 象 实例 化 看 起 来 相似 ， 这 也 体现 了 
这 一 原则 : 调用 方 无 需 知 道 被 调用 的 对 象 是 类 、 国 数 ， 还 是 其 他 可 调用 的 对 象 。 

托管 类 (managed class) 
使 用 描述 符 对 象 管理 类 中 某 个 属性 的 类 。 参 见 描 述 符 词 条 。 

托管 实例 (managed instance) 
托管 类 的 实例 。 参 见 托管 属性 和 描述 符 词 条 。 

托管 属性 (managed attribute) 
由 描述 符 对 象 管理 的 公开 属性 。 虽 然 托管 属性 在 托管 类 中 定义 ， 但 是 作用 相当 于 实例 属 
性 〈 即 各 个 实例 通常 有 各 自 的 值 ， 存 储 在 储存 属性 中 )。 参 见 描述 符 词 条 。 

驼峰 式 (CamelCase) 
标识 符 的 一 种 命名 约定 ， 单 词 的 首 字 母 大 写 ， 然 后 连接 起 来 (例如 Connection 
RefusedError)。PEP-8 建议 类 名 使 用 驼峰 式 ， 但 是 Python 标准 库 没 有 遵守 这 个 建议 。 
参见 蛇 底 式 词 条 。 

文档 字符 串 (docstring) 
documentation string 的 简称 。 如 果 模 块 、 类 或 函数 的 第 一 个 语句 是 字符 串 字 面 量 ， 那 个 
字符 串 会 当 作 所 在 对 象 的 文档 字符 串 ， 解 释 器 把 那个 字符 串 存 储 在 对 象 的 _doc ”属性 
中 。 另 见 doctest 词 条 。 

HUE (wart) 
48 Python 语言 的 不 足 。Andrew Kuchling 发 表 过 一 篇 著名 的 文章 一 一 “Python warts”, 
仁慈 的 独裁 者 承认 ， 他 在 设计 Python 3 的 过 程 中 受 此 文 影响 ， 决 定 不 向 后 兼容 ， 否 则 
无 法 修正 大 多 数 缺 陷 。Kuchling 提 到 的 多 数 问 题 在 Python 3 中 修正 了 。 
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像 文件 的 对 象 〈file-like object) 

官方 文档 使 用 的 一 个 非 正 式 称呼 ， 指 代 实 现 了 文件 协议 的 对 象 ， 有 read, write 和 
close 等 方法 。 常 见 的 变 体 有 : 逐 行 读 写 ， 包 含 编码 字符 串 的 纯 文 本 文件 ， 作 为 保存 在 
内 存 中 的 纯 文 本 文件 的 StringI0 实例 ， 包 含 未 编码 的 字 节 的 二 进 制 文件 。 最 后 一 种 可 
能 有 缓冲 ， 也 可 能 没有 缓冲 。 从 Python 2.6 起 ， 这 些 标准 文件 类 型 的 抽象 基 类 在 io 模 
块 里 。 

像 字 节 的 对 象 (bytes-like object) 

泛 指 字 节 序 列 。 最 稼 见 的 像 字 节 的 类 型 有 bytes、bytearray 和 memoryview; 不 过 ， 支 
持 低层 CPython 缓冲 协议 的 对 象 ， 如 果 元 素 是 单个 字 节 ， 那 么 也 属于 此 类 。 

协 程 〈coroutine ) 
用 于 并 发 编程 的 生成 器 ， 从 调度 程序 ， 或 者 通过 coro.send(value) 方法 从 事件 循环 中 
接收 值 。 这 个 术语 可 以 表示 通过 调用 生成 器 函数 获得 的 生成 器 函数 或 生成 器 对 象 。 参 见 
生成 器 词 条 。 

形 参 (parameter) 
声明 函数 时 指定 的 零 个 或 多 个 “形式 参数 ”"， 这 些 是 未 绑 定 的 局 部 变量 。 调 用 函数 时 ， 
传人 的 实 参 (“实际 参数 ”) 会 绑 定 给 这 些 变量 。 在 本 书 中 ， 我 尽量 使 用 实 参 指 代 传 给 上 
数 的 实际 参数 ， 使 用 形 参 指 代 声 明 函 数 时 使 用 的 形式 参数 。 然 而 ， 并 不 一 定 会 始终 这 样 
做 ， 因 为 Python 文档 和 API 经 常 混用 形 参 和 实 参 。 参 见 实 参 词 条 。 

虚拟 子 类 (virtual subclass) 


不 继承 自 超 类 ， 而 是 使 用 TheSuperClass.register(TheSubClass) 注册 的 类 。 参 见 abc. 
ABCMeta.register 方法 的 文档 (https://docs.python.org/3/library/abc.html#abc.ABCMeta. 
register) 。 

































































Fel] (sequence) 
ZEKE (例如 ，Len(s)) 固定 ， 可 以 使 用 从 零 开 始 的 整数 索引 【例如 siol) 获取 


元 素 的 数据 结构 。Python 出 现 伊始 ， 序 列 这 个 词 就 存在 了 ， 不 过 直到 Python 2.6 才 由 
collections.abc.Sequence 确定 为 一 个 抽象 类 。 





序列 化 (serialization) 


把 对 象 在 内 存 中 的 结构 转换 成 便于 存储 或 传输 的 二 进 制 或 文本 格式 ， 而 且 以 后 可 以 在 同 
一 个 系统 或 不 同 的 系统 中 重建 对 象 的 副本 。pickle 模块 能 把 任何 Python 对 象 序列 化 成 
二 进 制 格 式 。 

REFA (duck typing) 


多 态 的 一 种 形式 ， 在 这 种 形式 中 ， 不 管 对 象 属于 哪个 类 ， 也 不 管 声明 的 具体 接口 是 什 
么 ， 只 要 对 象 实现 了 相应 的 方法 ， 函 数 就 可 以 在 对 象 上 执行 操作 。 


一 等 函数 (first-class function) 


在 语言 中 属于 一 等 对 象 的 函数 〈 即 能 在 运行 时 创建 ， 赋 值 给 变量 ， 当 作 参 数 传 人 ， 以 及 
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作为 另 一 个 函数 的 返回 值 )。Python 中 的 函数 都 是 一 等 函数 。 
引用 计数 《refcount) 








CPython 内 部 对 各 个 对 象 的 引用 计数 ， 用 于 确定 垃圾 回收 程序 何 时 销毁 对 象 。 
用 户 定义 的 〈user-defined) 





在 Python 文档 中 ， 用 户 这 个 词 几乎 都 是 指 我 和 你 ， 即 使 用 Python 语言 的 程序 员 。 用 户 
与 实现 Python 解释 器 的 开发 者 是 相对 的 。 因 此 ,“ 用 户 定义 的 类 ”表示 使 用 Python 编 
写 的 类 ， 而 不 是 使 用 C 语言 编写 的 内 置 类 ， 如 str. 








UB 〈prime， 动 词 ) 


在 协 程 上 调用 next(coro)， 让 协 程 向 前 运行 到 第 一 个 yield 表达 式 ， 准 备 好 从 后 续 的 
coro.send(value) 调用 中 接收 值 。 


元 编程 (metaprogramming) 





编写 的 程序 使 用 程序 的 运行 时 信息 改变 程序 的 行为 。 例 如 ，ORM 可 能 会 内 省 模型 类 的 
声明 ， 确 定 如 何 验证 数据 库 记 录 里 的 字段 ， 以 及 如 何 把 数据 库 类 型 转换 成 Python 类 型 。 
元 类 (metaclass) 





实例 为 类 的 类 。 默 认 情况 下 ，Python 中 的 类 是 type 类 的 实例 ， 例 如 ，type(int) 得 到 的 
结果 是 type 类 ， 因 此 type 是 元 类 。 用 户 可 以 通过 扩展 type 类 定义 元 类 。 

元 组 拆 包 (tuple unpacking) 

把 可 友人 代 对 象 中 的 元 素 赋 值 给 多 个 变量 (ian, first, second, third == my_list), 


Python 高 手 通常 使 用 这 个 术语 ， 不 过 也 有 人 使 用 可 和 迭代 对 象 的 拆 包 。 
真 值 (truthy) 





fo 


Ik}, Python 会 隐 式 使 用 bool 计算 对 
象 ， 例 如 控制 if 和 while 循环 的 表达 式 。 与 此 相对 的 是 假 值 。 
指示 对 象 (referent) 


只 要 bool(x) 返回 True, x 就 是 真 值 。 需 要 布尔 人 











引用 的 目标 对 象 。 谈 及 弱 引 用 时 最 常 使 用 这 个 术语 。 
装饰 器 (decorator) 


一 个 可 调用 的 对 象 A， 返 回 另 一 个 可 调用 的 对 象 8， 在 可 调用 的 对 象 C 的 定义 体 之 前 使 

用 句法 @A 调用 。Python 解释 器 读 取 这 样 的 代码 时 ， 会 调用 A(C)， 把 返回 的 8B 绑 定 给 之 

前 赋予 C 的 变量 ， 也 就 是 把 C 的 定义 体 换 成 B。 如 果 目 标 可 调用 对 象 C 是 函数 ， 那 么 A 
如 果 C 是 类 ， 那么 A 是 类 装饰 器 。 

字 节 字符 串 〈byte string) 





SO HL, 
是 函数 装饰 器 ， 


可 异 ， 在 Python 3 中 仍然 使 用 这 个 名 称 指 代 bytes 或 bytearray。 在 Python 2 中 ，str 
类 型 其 实 是 字 节 字符 串 ， 为 了 把 str 和 unicode 字符 串 区 分 开 ， 才 用 了 这 个 名 称 。 在 
Python 3 中 没 理由 继续 使 用 这 个 术语 了 ， 泛 指 字 节 序列 时 ， 我 都 尽量 使 用 字 节 序列 (byte 
sequence) 这 个 术语 。 
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作者 简介 

Luciano Ramalho 在 1995 年 Netscape 首次 公开 幕 股 以 前 就 是 一 名 Web 开发 者 了 ， 他 先后 
用 过 Perl 和 Java, 1998 年 开始 使 用 Python。 自 那 以 后 ， 他 在 巴西 的 几 个 新 闻 门 户 网 站 工 
作 ， 使 用 Python 做 开发 ， 还 为 巴西 的 媒体 、 银 行 和 政府 部 门 做 Python Web 开发 培训 。 他 
经 常 在 开发 者 大 会 上 演讲 ， 比 如 PyCon US (2013), OSCON (2002, 2013 和 2014) ， 还 
有 多 年 在 PythonBrasil (在 巴西 举办 的 PyCon) 以 及 FISL (南半球 最 大 的 FLOSS KA) 上 
做 过 的 15 次 演讲 。Ramalho 是 Python 软件 基金 会 的 成 员 ， 还 是 巴西 第 一 个 众 创 空 间 Garoa 
Hacker Clube 的 联合 创始 人 。 他 也 是 培训 公司 Python.pro.br 的 共同 所 有 人 。 


关于 封面 

本 书 封面 的 动物 是 纳 马 沙 蜥 (学 名 : Pedioplanis namaquensis) ， 身 体 细 长 ， 有 一 条 呈 红 棕 
色 的 长 尾巴 。 这 种 沙 蜥 身体 为 黑色 ， 有 四 条 和 白 纹 ; 四 肢 呈 棕色 ， 带 白 点 ; 腹部 为 白色 。 
Div ARGH, RAR HL, CNM LARK YP HL, ASA 
KRAMER EAR, FA ot TA ARG TE de FH BR oF RIB, VA 
小 昆虫 为 食 。 在 11 月 ， 坎 性 会 产 下 3~-SKE, 

O’Reilly 出 版 的 图 书 ， 封 面 上 很 多 动物 都 濒临 灭绝 。 这 些 动物 都 是 地 球 的 至 宝 。 如 果 你 想 
知道 如 何 保护 这 些 动物 ， 请 访问 animals.oreilly.com, 








封面 图 片 出 自 Wood &% Natural History, Vol 3, 
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延 展 阅读 


TS anaeavus s 。 16 种 基本 设计 模式 ， 轻 松 解决 软件 设计 常见 问题 
。 借 力 高 效 的 Python 语言 ， 用 现实 例子 展示 各 模式 关键 特性 


精通 
` Python 设计 模式 


Mastering 


书号 : 978-7-115-42803-5 
定价 : 45.00 元 


。 全 面 掌握 Python 代码 性 能 分 析 和 优化 方法 ， 消 除 性 能 瓶颈 ， 迅 速 改善 程序 性 能 








分 析 与 优化 


Mastering 


书号 : 978-7-115-42422-8 
定价 : 45.00 元 


msnanarus 。 你 一 定 能 看 懂 的 算法 基础 书 


算法 图 解 。 代码 示例 基于 Python 
。 400 多 个 示意 图 ， 生 动 介绍 算法 执行 过 程 


。 教会 你 用 常见 算法 解决 每 天 面临 的 实际 编程 问题 

















onan RRR 
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。 通过 Netflix、Amazon 等 多 个 业界 案例 ， 从 微服 务 架构 演进 到 原理 剖析 ， 全 面 i 
解 建 模 、 集 成 、 部 署 等 微服 务 所 涉及 的 各 种 主题 
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。 通过 解决 问题 锤炼 软件 开发 技能 


















通过 解决 问题 钥 烧 软件 开发 技能 
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。 敏捷 先驱 为 你 直观 呈现 软件 开发 简约 之 道 ， 实 践 高 效 编程 
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高 效能 组 织 如 何 规模 化 创新 
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流畅 的 Python 


本 书 由 奋战 在 Python 开 发 一 线 近 20 年 的 Luciano Ramalho 执 笔 ，Victor 
Stinner、Alex Martelli 等 Python 大 咖 担 纲 技术 审 稿 人 ， 从 语言 设计 层面 剖 
析 编 程 细节 ， 兼 顾 Python 3 和 Python 2， 告 诉 你 Python 中 不 亲自 动手 实 
践 就 无 法 理解 的 语言 陷阱 成 因 和 解决 之 道 ， 教 你 写 出 风格 地 道 的 Python 
代码 。 


内 容 特色 


m Python 数据 模型 : 理解 为 什么 特殊 方法 是 对 象 行为 一 致 的 关键 。 

加 数据 结构 : 充分 利用 内 置 类 型 ， 理 解 Unicode 文 本 和 字 节 二 象 性 。 

E 把 函数 视 作 对 和 象 : 把 Python 函数 视 作 一 等 对 象 ， 并 了 解 这 一 点 对 
流行 的 设计 模式 的 影响 。 

加 面向 对 象 习惯 用 法 : 通过 构建 类 学 习 引 用 、 可 变性 、 接 口 、 运 算 
符 重 载 和 多 重 继承 。 


E 控制 流程 : 学 习 使 用 上 下 文 管理 器 、 生 成 器 、 协 程 ， 以 及 通过 
concurrent ,futures 和 asyncio 包 实现 的 并 发 。 


E 元 编程 : 理解 特性 、 描 述 符 、 类 装饰 器 和 元 类 的 工作 原理 。 


Luciano Ramalho， 从 1998 年 起 就 成 为 了 Python 程 序 员 。 他 是 Python 软 件 基金 
会 的 成 员 ，Python.pro.br (巴西 的 一 家 培训 公司 ) 的 共同 所 有 者 ， 还 是 巴西 
第 一 个 众 创 空间 Garoa Hacker Clube 的 联合 创始 人 。 他 领导 过 多 个 软件 开发 团 
队 ， 还 在 巴西 的 媒体 、 银 行 和 政府 部 门 教授 Python 课程 。 


PROGRAMMING/PYTHON 


封面 设计 : Ellie Volckhausen 张 健 


图 灵 社区 : iTuring.cn 
热线 : (010)51095186 转 600 


| 分 类 建议 | 计算 机 /程序 设计 / Python 


人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


OReilly Media, Inc. 授 权 人 民 邮 电 出 版 社 出 版 


此 简体 中 文 版 仅 限 于 中 国 大 陆 (不 包含 中 国 香港 、 澳 门 特别 行政 区 和 中 国 台湾 地 区 ) 销售 发 行 
This Authorized Edition for sale only in the territory of People’s Republic of China (excluding 
Hong Kong, Macao and Taiwan) 





“很 荣幸 担任 这 本 优秀 图 书 的 技 
术 审 校 。 这 本 书 能 帮助 很 多 中 
级 Python 程序 员 掌 握 这 门 语 
言 ， 我 也 从 中 学 到 了 相当 多 的 
知识 ! ” 





Alex Martelli 
Python 软件 基金 会 成 员 


“对 于 想 要 扩充 知识 的 中 级 和 高 
级 Python 程序 员 来 说 ， 这 本 
书 是 充满 了 实用 编程 技巧 的 宝 
一 一 Daniel Greenfeld 和 
Audrey Roy Greenfeld 

Two Scoops of Django 作者 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com, 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 
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